在计数向量器中使用哪个轴?

问题描述 投票:1回答:1

我想创建一个文档术语矩阵。在我的情况下,它不像文档x单词,而是句子x单词,因此这些句子将充当文档。我在文档术语矩阵创建后使用“ l2”规范化。

术语计数对于我进一步使用SVD创建摘要非常重要。

我的查询是哪个轴适合应用'l2'归一化。经过充分的研究,我了解到:

  • Axis = 1:会让我知道该单词在句子中的重要性(逐行规范化)
  • Axis = 0:单词在文档中的重要性(行规范化)。

即使在了解了理论之后,我仍然无法决定选择哪种选择,因为选择将极大地影响我的总结结果。因此,请为我提供解决方案以及理由。

python normalization countvectorizer lsa
1个回答
1
投票

通过L2归一化,您是指除以总数吗?如果沿轴= 0进行归一化,则x_{i,j}的值是单词j在所有句子i上的概率(除以全局单词数),这取决于句子的长度,例如较长的单词可以一遍又一遍地重复一些单词,并且此单词的可能性更高,因为它们对全局单词计数有很大贡献。如果您沿axis = 1进行归一化,那么您要问的是,句子沿长度的归一化,句子是否具有相同的单词构成。

© www.soinside.com 2019 - 2024. All rights reserved.