我正在进行文本分析,我想计算特定单词在不同文档中出现的频率(类似于情感分析)。 为此,我创建了一个特定的单词列表,并将所有文档存储在语料库中,然后存储在 DTM(文档术语矩阵)中。
现在,我目前在 R 中使用 TM 包,使用以下公式:
术语.频率 <- data.frame(tm_term_score(DTM.tfidf, Wordlist))
但是,我不太熟悉公式背后使用的技术,这就是为什么我想自己计算 Term.Frequency。此外,代码提供分数而不是频率总数。
我不知道如何才能计算单词列表中单词的频率。有人可以帮助我吗?