什么是对 Word2vec 生成的平均向量的良好替代品

Question

我的数据集采用以下格式，其中对于每种疾病，我使用 word2vec 生成 2D 向量。（例如显示 2D 向量，但实际上，向量为 100D ）

Disease                             Vectors

disease a, disease c         [[ 0.2520773 ,  0.433798],[0.38915345, 0.5541569]]

disease b                    [0.12321666, 0.64195603]

disease c, disease b         [[0.38915345, 0.5541569],[0.12321666, 0.64195603]]

disease c                    [0.38915345, 0.5541569]

从这里我通过取向量的平均值为每个

disease/disease combination

生成一个一维数组。平均词向量的问题在于，两种或多种疾病的组合可以与完全不同的疾病具有相同的平均向量，这完全不相关，但平均向量是匹配的。这使得平均向量的概念存在缺陷。为了解决这个问题，我们的理解是随着向量维度的增加，这种可能性应该更小。

所以，有几个问题：

有没有比平均 word2vec 向量的输出来生成一维数组更好的方法？
这些生成的向量将被视为我试图为每种疾病/疾病组合构建的分类器模型的特征，因此，如果我从 word2vec 生成 100D 特征向量，我是否应该在其上使用类似 PCA 的东西来减少或者我应该将 100D 特征向量视为我的分类器的 100 个特征。

Answer 1

在 word2vec 空间中，

King - Man + Woman = Queen

，因为互信息是在嵌入中间接学习到的。从这一观察中，我们了解到，在您的问题的背景下，理论上只是“添加”向量。例如，当两种疾病的 word2vec 嵌入相加时，结果是代表这两种疾病的假设单词的嵌入。这样的词可能不存在，但由于观察到的语言规律，语义被保留了。

什么是对 Word2vec 生成的平均向量的良好替代品

问题描述投票：0回答：1

1个回答

最新问题

什么是对 Word2vec 生成的平均向量的良好替代品

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1