什么是对 Word2vec 生成的平均向量的良好替代品

问题描述 投票:0回答:1

我的数据集采用以下格式,其中对于每种疾病,我使用 word2vec 生成 2D 向量。(例如显示 2D 向量,但实际上,向量为 100D )

Disease                             Vectors

disease a, disease c         [[ 0.2520773 ,  0.433798],[0.38915345, 0.5541569]]

disease b                    [0.12321666, 0.64195603]

disease c, disease b         [[0.38915345, 0.5541569],[0.12321666, 0.64195603]]

disease c                    [0.38915345, 0.5541569]

从这里我通过取向量的平均值为每个

disease/disease combination
生成一个一维数组。平均词向量的问题在于,两种或多种疾病的组合可以与完全不同的疾病具有相同的平均向量,这完全不相关,但平均向量是匹配的。这使得平均向量的概念存在缺陷。为了解决这个问题,我们的理解是随着向量维度的增加,这种可能性应该更小。

所以,有几个问题:

  1. 有没有比平均 word2vec 向量的输出来生成一维数组更好的方法?

  2. 这些生成的向量将被视为我试图为每种疾病/疾病组合构建的分类器模型的特征,因此,如果我从 word2vec 生成 100D 特征向量,我是否应该在其上使用类似 PCA 的东西来减少或者我应该将 100D 特征向量视为我的分类器的 100 个特征。

vector pca gensim word2vec word-embedding
1个回答
0
投票

在 word2vec 空间中,

King - Man + Woman = Queen
,因为互信息是在嵌入中间接学习到的。从这一观察中,我们了解到,在您的问题的背景下,理论上只是“添加”向量。 例如,当两种疾病的 word2vec 嵌入相加时,结果是代表这两种疾病的假设单词的嵌入。这样的词可能不存在,但由于观察到的语言规律,语义被保留了。

© www.soinside.com 2019 - 2024. All rights reserved.