了解word2vec中的词汇量大小

问题描述 投票:0回答:1

我试图理解word2vec算法,但有些问题让我很困惑。我正在使用TensorFlow的代码。问题是我的数据大小是1.84亿字,总共包含220万个不同的单词。我把vocabulary_size设置为250,000。这是否意味着我的网络实际上学习了最常见的250,000个单词,其余的1.950,000个单词只是UNK?

另一个问题是;我从理论上理解了这个模型。但是,我很难将它与代码联系起来。输入图层大小是否与代码中的vocabulary_size相对应?

如果你开导我,我将非常感激。

python tensorflow word2vec
1个回答
0
投票

如果你看一下代码中的build_dataset函数,你会发现词汇量大小以上的任何东西都变成了unk,以及输入层是如何设置的(只有在wrod2vec上没有隐藏的层,所以就是这样)。

© www.soinside.com 2019 - 2024. All rights reserved.