了解word2vec中的词汇量大小

Question

我试图理解word2vec算法，但有些问题让我很困惑。我正在使用TensorFlow的代码。问题是我的数据大小是1.84亿字，总共包含220万个不同的单词。我把vocabulary_size设置为250,000。这是否意味着我的网络实际上学习了最常见的250,000个单词，其余的1.950,000个单词只是UNK？

另一个问题是;我从理论上理解了这个模型。但是，我很难将它与代码联系起来。输入图层大小是否与代码中的vocabulary_size相对应？

如果你开导我，我将非常感激。

Answer 1

如果你看一下代码中的build_dataset函数，你会发现词汇量大小以上的任何东西都变成了unk，以及输入层是如何设置的（只有在wrod2vec上没有隐藏的层，所以就是这样）。

了解word2vec中的词汇量大小

问题描述投票：0回答：1

1个回答

最新问题

了解word2vec中的词汇量大小

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1