我想了解什么是 -wordNgrams 的参数。
让我们以下面的文本为例。
The quick brown fox jumps over the lazy dog
现在我们在 "brown "这个词的上下文窗口大小为2,那么我们就会有下面的样本。
如果我们设置-wordNgrans 2,我们会在词汇中找到'brown_fox'这个词吗?因此,我们现在的训练样本将是。
是这样吗?
我没有找到任何关于这个的解释。
我想知道同样的问题。
我发现一个 发出 其中说'单词n-grams只在监督模式下使用',所以在无监督模式下,设置wordNgrams=2是不行的。
然后我自己测试了一下。
./fasttext skipgram -input data.txt -output test -dim 50 -wordNgrams 2 -loss hs
cut -d' ' -f1 test.vec | vocab.txt
结果是,只有单字和子字在... vocab.txt
.