在word2vec模型中测试时如何嵌入词汇?

问题描述 投票:0回答:1

我正在用 100 000 个词汇量训练我的 word2vec 模型(skip-gram)。但是在测试时我得到了一些不在词汇表中的单词。为了找到它们的嵌入,我尝试了两种方法:

  1. 从词汇中计算最小编辑距离单词并获取其嵌入。

  2. 从单词构造不同的 n 元语法并在词汇中搜索它们。

尽管应用了这些方法,我还是无法完全摆脱词汇问题。

word2vec 是否像 fastText 那样在训练时考虑单词的所有 n 元语法?

注意 - 在 fastText 中,如果我们的输入单词是 quora,那么它会考虑语料库中所有可能的 n 元语法。

nlp word2vec word-embedding oov
1个回答
0
投票

我认为你的案例中词汇外的单词是非常罕见的。其中一种可能性是使用指定符号(或另一个非常罕见的单词)的散列作为此类词汇外单词的哨兵。这需要对这些单词进行预处理,但在实际应用中应该足够好。

© www.soinside.com 2019 - 2024. All rights reserved.