处理来自不同文档的相同单词

问题描述 投票:0回答:1

我正在制作一个 python 类,它计算文档中每个单词的 tfidf 权重。现在我的数据集中有 50 个文档。在这些文档中,许多单词相交,因此具有多个相同的单词特征但具有不同的 tfidf 权重。所以问题是如何将所有权重汇总为一个单独的权重?

python machine-learning text-classification tf-idf
1个回答
2
投票

首先,让我们弄清楚一些术语。术语是语料库中类似单词的单元。标记是特定文档中特定位置的术语。可以有多个标记使用同一术语。例如,在我的回答中,有许多标记使用术语“the”。但“the”只有一个术语。

我觉得你有点困惑。 TF-IDF 样式加权函数指定如何根据文档中术语的标记频率和文档中每个术语的语料库中的背景标记文档频率来计算每个术语的分数。 TF-IDF 将文档转换为术语到权重的映射。因此,文档中共享同一术语的更多标记将增加该术语的相应权重,但每个术语只有一个权重。对于在文档内共享术语的标记,没有单独的分数。

© www.soinside.com 2019 - 2024. All rights reserved.