我有一个巨大的数据框df1,其过度简化的版本由3列组成:“单词”,“频率”和“字母”:]]
Words Frequency Letters flower/tree 0.15 a(0.1) tree 0.67 a(0.4) planet 0.85 b(0.4) tree/planet 0.42 c(0.5) tree 0.89 a(0.6) flower 0.21 b(0.4) flower/planet 0.53 b planet 0.07 a
使用R(dplyr,应用族函数等),我想计算“字母”列中每个字母(a,b,c)与“单词”列中每个单词相关联的次数(花朵,树木,行星)(迭代方式),具体取决于“频率”(Frequency)列值的频率范围。有4个素材箱:[0,0.25],[0.25、0.5],[0.5、0.75],[0.75、1]。
我希望输出数据帧df2看起来像这样:
Bin Word Letters count_letters
0-0.25 flower a 1
0-0.25 flower b 1
0-0.25 tree a 1
0-0.25 planet a 1
0.25-0.5 tree c 1
0.25-0.5 planet c 1
0.5-0.75 flower b 1
0.5-0.75 tree a 1
0.5-0.75 planet b 1
0.75-1 tree a 1
0.75-1 planet b 1
我有一个巨大的数据框df1,它的简化版由3列组成:“单词”,“频率”和“字母”:单词频率字母花卉/树0.15 a(0.1)树...
您可以使用cut
装箱Frequency
,substr
清洁Letters
和tidyr::separate_rows
装箱Word
。与dplyr::count
聚合,则设置为: