我是机器学习领域的新手。现在我想计算不同语言的两个文档之间的相似度(例如:越南语文档和英语文档)。
我知道如果我们比较多语言单词,我们可以在
transvec
中使用word2vec
。我想问一下doc2vec
是否可以。我该如何解决这个问题doc2vec
? (现在我通过doc2vec
训练gensim
)
Gensim 中的
Doc2Vec
模型不考虑语言。它只是应用非常类似于 word2vec 的“段落向量”算法来学习标记运行(文档)的向量,这些向量有助于预测单词,无论是单独(纯 DBOW 模式)还是与附近的单词到单词结合使用附近单词信息(DM mdoes)。
因此,它是否适用于任何特定目的的多语言语料库(例如检测不同语言的两个文档何时涵盖相似的主题)将完全取决于您如何训练模型,尤其是文档和单词的类型 -它在训练集中看到的单词相关性。
虽然我还没有进行实验,但根据我对算法的理解,我希望它能够可能工作,如果:
巨大区域中。但即使是关于同一件事的英语文档和越南语文档也可能有非常不同的向量——因为训练数据中没有任何内容暗示这些单词涵盖了相同的事情。 最终,您需要进行实验,看看它的工作效果如何,以及通过确保它具有跨语言主题的有用的多语言提示,您可以在多大程度上帮助它工作。