创建两种语言的通用嵌入

问题描述 投票:1回答:1

我的任务处理多种语言,例如(英语和印地语)。为此,我需要一个通用的嵌入来表示两种语言。

[我知道有学习像'MUSE'这样的多语言嵌入的方法,但这代表了在公共向量空间中的这两个嵌入,显然它们是相似的,但不相同。

所以我想知道是否有任何方法或方法可以学习以表示两种语言的单一嵌入形式来表示两种嵌入。

非常感谢任何潜在客户!!

deep-learning nlp pytorch multilingual embedding
1个回答
2
投票

我认为最好的线索是查看该领域过去的工作。可以从Sebastian Ruder's talk入手,这是一个很好的概述,它为您提供了多种方法,具体取决于您对源/目标语言的了解程度。这基本上是MUSE所做的,并且我相对确定它被认为是最先进的。

大多数方法的基本思想是映射嵌入空间,以使两者之间的距离(通常是欧几里得距离)最小化(请参见链接的第16页)。如果您拥有一本已知的词典并且可以准确地映射不同的翻译,那么这显然是最好的,并且如果两种语言具有相似的语言特性(坦白地说,不太确定北印度语和英语),则效果更好。

[另一种最近的方法是Multilingual-BERT (mBERT)或类似的方法,XLM-RoBERTa,但那些方法是基于共享词汇

来学习嵌入的。如果您使用的语言在形态上互不相同,那么这可能再一次不太理想,并且其缺点是它们合并了许多其他不相关的语言。

否则,我不清楚您对“通用嵌入”的期望是什么,但很高兴在得到澄清后扩展答案。

© www.soinside.com 2019 - 2024. All rights reserved.