从fastText理解wordNgram

问题描述 投票:1回答:1

我想了解什么是 -wordNgrams 的参数。

让我们以下面的文本为例。

The quick brown fox jumps over the lazy dog

现在我们在 "brown "这个词的上下文窗口大小为2,那么我们就会有下面的样本。

  • (棕色,快速)
  • (棕色,狐狸)
  • (棕色,跳跃)

如果我们设置-wordNgrans 2,我们会在词汇中找到'brown_fox'这个词吗?因此,我们现在的训练样本将是。

  • (brown_fox, the)
  • (brown_fox, quick)
  • (棕色的狐狸,跳跃)
  • (brown_fox,完毕)

是这样吗?

我没有找到任何关于这个的解释。

word2vec fasttext
1个回答
0
投票

我想知道同样的问题。

我发现一个 发出 其中说'单词n-grams只在监督模式下使用',所以在无监督模式下,设置wordNgrams=2是不行的。

然后我自己测试了一下。

./fasttext skipgram -input data.txt -output test -dim 50 -wordNgrams 2 -loss hs

cut -d' ' -f1 test.vec | vocab.txt

结果是,只有单字和子字在... vocab.txt.

© www.soinside.com 2019 - 2024. All rights reserved.