用于翻译同形异义词的文本对齐的单词向量

问题描述 投票:0回答:1

Homograph是一个与另一个单词具有相同书面形式但含义不同的单词,例如以下句子中的right

  • 成功是要做出right决定。
  • 在交通信号灯后转向

在第一种情况下,英语单词“ right”在瑞典语中被翻译为“rätt”,在第二种情况下被翻译为“höger”。通过查看上下文(围绕单词)可以进行正确的翻译。

问题1。我想知道是否可以使用快速文本对齐的词嵌入来帮助将这些同形异义词或具有几种可能翻译的词翻译成另一种语言?

[[EDIT]目标是not来查询模型的正确翻译。目的是在给出以下信息时pick正确的翻译:

  • [(或几种)目标语言中的两种(或几种)可能的翻译选项,例如“rätt”和“höger”
  • 源语言中的周围单词

问题2]。我加载了english pre-trained vectors modelEnglish aligned vector model。虽然两个人都接受了Wikipedia文章的培训,但我注意到两个词之间的距离已保留,但数据集文件(wiki.en.vec与wiki.en.align.vec)的大小明显不同(1GB)。如果仅使用对齐的版本,这是否有意义?对齐的数据集未捕获哪些信息?

Homograph是一个单词,与另一个单词具有相同的书面形式,但是具有不同的含义,就像下面的句子中所说的:成功是指做出正确的决定。 ...

machine-learning nlp word2vec fasttext machine-translation
1个回答
0
投票

对于问题1,我想这些“对齐”向量有可能帮助翻译同形异义词,但是仍然面临一个问题,即任何一个标记只有一个向量-即使该标记具有多种含义。

© www.soinside.com 2019 - 2024. All rights reserved.