使用TM进行R文本挖掘:文档中是否包含罕见的单词

问题描述 投票:0回答:1

使用R中的TM软件包,如何为文档打分?我想以某种方式将包含非常独特单词的文档与包含常用单词的文档分开。

我知道如何找到常用词和最少用词,例如findFreqTerms,但是如何对文档的唯一性评分?

我正在努力提出一个好的解决方案。

r text-mining tm
1个回答
0
投票

评估仅在某些文档中使用哪个单词的一个很好的起点是所谓的[[tf-idf权重(tidytext package vignette)。这会为每个(单词,文档)组合分配一个分数,因此一旦计算出分数,您就可以尝试沿“文档”边距进行汇总,也许实际上只是colMeans,以了解其使用了多少个相对独特的术语。

为了分离文档,像tf-idf这样的加权方案可能比仅找到最稀有的总体标记要好:大多数文档中一次使用的稀有单词与仅少数文档中多次使用的单词的处理方式大不相同。

R包TM,tidytext和Quanteda均具有计算该值的功能。

© www.soinside.com 2019 - 2024. All rights reserved.