使用R中的TM软件包,如何为文档打分?我想以某种方式将包含非常独特单词的文档与包含常用单词的文档分开。
我知道如何找到常用词和最少用词,例如findFreqTerms,但是如何对文档的唯一性评分?
我正在努力提出一个好的解决方案。
评估仅在某些文档中使用哪个单词的一个很好的起点是所谓的[[tf-idf权重(tidytext package vignette)。这会为每个(单词,文档)组合分配一个分数,因此一旦计算出分数,您就可以尝试沿“文档”边距进行汇总,也许实际上只是colMeans
,以了解其使用了多少个相对独特的术语。
R包TM,tidytext和Quanteda均具有计算该值的功能。