我的数据集采用以下格式,其中对于每种疾病,我使用 word2vec 生成 2D 向量。(例如显示 2D 向量,但实际上,向量为 100D )
Disease Vectors
disease a, disease c [[ 0.2520773 , 0.433798],[0.38915345, 0.5541569]]
disease b [0.12321666, 0.64195603]
disease c, disease b [[0.38915345, 0.5541569],[0.12321666, 0.64195603]]
disease c [0.38915345, 0.5541569]
从这里我通过取向量的平均值为每个
disease/disease combination
生成一个一维数组。平均词向量的问题在于,两种或多种疾病的组合可以与完全不同的疾病具有相同的平均向量,这完全不相关,但平均向量是匹配的。这使得平均向量的概念存在缺陷。为了解决这个问题,我们的理解是随着向量维度的增加,这种可能性应该更小。
所以,有几个问题:
有没有比平均 word2vec 向量的输出来生成一维数组更好的方法?
这些生成的向量将被视为我试图为每种疾病/疾病组合构建的分类器模型的特征,因此,如果我从 word2vec 生成 100D 特征向量,我是否应该在其上使用类似 PCA 的东西来减少或者我应该将 100D 特征向量视为我的分类器的 100 个特征。
King - Man + Woman = Queen
,因为互信息是在嵌入中间接学习到的。从这一观察中,我们了解到,在您的问题的背景下,理论上只是“添加”向量。
例如,当两种疾病的 word2vec 嵌入相加时,结果是代表这两种疾病的假设单词的嵌入。这样的词可能不存在,但由于观察到的语言规律,语义被保留了。