Doc2vec支持多种语言吗?transvec lib是否用于Doc2vec模型?

问题描述 投票:0回答:1

我是机器学习领域的新手。现在我想计算不同语言的两个文档之间的相似度(例如:越南语文档和英语文档)。

我知道如果我们比较多语言单词,我们可以在

transvec
中使用
word2vec
。我想问一下
doc2vec
是否可以。我该如何解决这个问题
doc2vec
? (现在我通过
doc2vec
训练
gensim

multilingual doc2vec
1个回答
0
投票

Gensim 中的

Doc2Vec
模型不考虑语言。它只是应用非常类似于 word2vec 的“段落向量”算法来学习标记运行(文档)的向量,这些向量有助于预测单词,无论是单独(纯 DBOW 模式)还是与附近的单词到单词结合使用附近单词信息(DM mdoes)。

因此,它是否适用于任何特定目的的多语言语料库(例如检测不同语言的两个文档何时涵盖相似的主题)将完全取决于您如何训练模型,尤其是文档和单词的类型 -它在训练集中看到的单词相关性。

虽然我还没有进行实验,但根据我对算法的理解,我希望它能够可能工作,如果:

  1. 给定大量数据,这些数据是两种语言的有意义的组合,因此它有机会了解到语言 1 中的单词 A 和语言 2 中的单词 B 与相同的主题相关。 (简单地拥有自然的双语文档可能就足够了,但可能有助于包含其中包含两种语言的等效文本的文档。如果这些文档是相当低质量的机械翻译,甚至可能没问题,只要它们总体上正确提示哪些单词彼此相关,即使在原始/自然单语文档中它们从未一起出现。)
  2. 大小合适,可以“强制”内部神经网络利用跨语言相关性。 (过大的模型——太多的维度或罕见的单词——往往会在不共享太多内部表示的情况下学习两种语言——一种过度拟合。)
  3. 仅包含单语示例且尺寸过大的模型往往可以很好地进行英语到英语的文档比较(将所有英语文档放在向量空间的一个巨大区域中),并且也可以很好地处理越南语到越南语的文档比较 _ 将所有越南文档放入向量空间的
任意不同

巨大区域中。但即使是关于同一件事的英语文档和越南语文档也可能有非常不同的向量——因为训练数据中没有任何内容暗示这些单词涵盖了相同的事情。 最终,您需要进行实验,看看它的工作效果如何,以及通过确保它具有跨语言主题的有用的多语言提示,您可以在多大程度上帮助它工作。

© www.soinside.com 2019 - 2024. All rights reserved.