计算与其他列的双重类别关联的列中的特定字符。根据频点进行迭代操作

问题描述 投票:2回答:1

我有一个巨大的数据框df1,其过度简化的版本由3列组成:“单词”,“频率”和“字母”:]]

Words           Frequency   Letters
flower/tree     0.15        a(0.1)
tree            0.67        a(0.4)
planet          0.85        b(0.4)
tree/planet     0.42        c(0.5)
tree            0.89        a(0.6)
flower          0.21        b(0.4)
flower/planet   0.53        b
planet          0.07        a

使用R(dplyr,应用族函数等),我想计算“字母”列中每个字母(a,b,c)与“单词”列中每个单词相关联的次数(花朵,树木,行星)(迭代方式),具体取决于“频率”(Frequency)列值的频率范围。有4个素材箱:[0,0.25],[0.25、0.5],[0.5、0.75],[0.75、1]。

我希望输出数据帧df2看起来像这样:

Bin       Word    Letters    count_letters
0-0.25    flower  a          1
0-0.25    flower  b          1
0-0.25    tree    a          1
0-0.25    planet  a          1
0.25-0.5  tree    c          1
0.25-0.5  planet  c          1
0.5-0.75  flower  b          1
0.5-0.75  tree    a          1
0.5-0.75  planet  b          1
0.75-1    tree    a          1
0.75-1    planet  b          1

我有一个巨大的数据框df1,它的简化版由3列组成:“单词”,“频率”和“字母”:单词频率字母花卉/树0.15 a(0.1)树...

r dataframe dplyr apply
1个回答
4
投票

您可以使用cut装箱Frequencysubstr清洁Letterstidyr::separate_rows装箱Word。与dplyr::count聚合,则设置为:

© www.soinside.com 2019 - 2024. All rights reserved.