Doc2vec支持多种语言吗？transvec lib是否用于Doc2vec模型？

Question

我是机器学习领域的新手。现在我想计算不同语言的两个文档之间的相似度（例如：越南语文档和英语文档）。

我知道如果我们比较多语言单词，我们可以在

transvec

中使用

word2vec

。我想问一下

doc2vec

是否可以。我该如何解决这个问题

doc2vec

？（现在我通过

doc2vec

训练

gensim

）

Answer 1

Gensim 中的

Doc2Vec

模型不考虑语言。它只是应用非常类似于 word2vec 的“段落向量”算法来学习标记运行（文档）的向量，这些向量有助于预测单词，无论是单独（纯 DBOW 模式）还是与附近的单词到单词结合使用附近单词信息（DM mdoes）。

因此，它是否适用于任何特定目的的多语言语料库（例如检测不同语言的两个文档何时涵盖相似的主题）将完全取决于您如何训练模型，尤其是文档和单词的类型 -它在训练集中看到的单词相关性。

虽然我还没有进行实验，但根据我对算法的理解，我希望它能够可能工作，如果：

给定大量数据，这些数据是两种语言的有意义的组合，因此它有机会了解到语言 1 中的单词 A 和语言 2 中的单词 B 与相同的主题相关。（简单地拥有自然的双语文档可能就足够了，但可能有助于包含其中包含两种语言的等效文本的文档。如果这些文档是相当低质量的机械翻译，甚至可能没问题，只要它们总体上正确提示哪些单词彼此相关，即使在原始/自然单语文档中它们从未一起出现。）
大小合适，可以“强制”内部神经网络利用跨语言相关性。（过大的模型——太多的维度或罕见的单词——往往会在不共享太多内部表示的情况下学习两种语言——一种过度拟合。）

任意不同

巨大区域中。但即使是关于同一件事的英语文档和越南语文档也可能有非常不同的向量——因为训练数据中没有任何内容暗示这些单词涵盖了相同的事情。最终，您需要进行实验，看看它的工作效果如何，以及通过确保它具有跨语言主题的有用的多语言提示，您可以在多大程度上帮助它工作。