将每个样本分别除以其最大特征值,或将所有样本除以整个数据集的最大值

问题描述 投票:0回答:1

我正在尝试重现一篇使用 tf-idf 方法的论文。在数据预处理过程中,有一个步骤涉及特征缩放。在原始论文中,它说:“我们将单词限制为训练集中最常见的 10,000 个单词;然后,通过除以特征的最大绝对值,将每个特征缩放到 [-1, 1] 范围内穿过火车组。”那么,当提到除以最大绝对值时,是将每个样本分别除以其最大特征值,还是将所有样本除以整个数据集中的最大值?

尚未完成......................

python deep-learning nlp tf-idf data-processing
1个回答
0
投票

TF =(文档中单词的重复次数)/(文档中单词的数量)

IDF =Log[(文档数) / (包含该单词的文档数)]

因此特定单词的 TF-IDF 值是 该单词的 TF 值 * 该单词的 IDF 值

因此 TF-IDF 值范围在 0 和 1 之间。 TF-IDF 不能有 -ve

请注意,此处的文档与 Excel 中的行同义。因此请理解,特定单词的 TF-IDF 值将仅基于训练数据集

所以我不确定你想做什么。如果您能详细说明一下以更好地帮助您,那就太好了。

© www.soinside.com 2019 - 2024. All rights reserved.