GoogleNews-vectors-negative300.bin的词汇中没有单词

Question

[我正在尝试查看哪种预训练模型在新闻中包含常用短语，我认为GoogleNews-vectors-negative300.bin应该是一个全面的模型，但事实证明，它甚至不包含deep_learning，machine_learning，social_network，social_responsibility 。哪种预先训练的模型可以包含新闻，公共报道中经常出现的那些词？

import gensim

# Load Google's pre-trained Word2Vec model.
model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz', binary=True)

model.similarity('deep_learning', 'machine_learning')

Answer 1

这些是不太可能包含的MWE（多词表达式）。从理论上讲，您可以通过对构成MWE的每个单词的向量取平均值来对它们进行建模。

适用于包含向量的操作和获得的结果的不同考虑因素是：word2vec - what is best? add, concatenate or average word vectors?

Answer 2

GoogleNews载体是Google在大约2012-2013年间针对大型内部新闻文章进行训练的。

[此外，似乎已经使用纯统计共现分析（类似于gensim Phrases类实现的分析）将单个单词提升为多单词短语-常常不符合人类水平对实体/概念的感知，缺少一些单词组合，过度组合了其他单词。

因此，那时那些晦涩（甚至还没有创造出来的！）概念，或者新闻报道中很少涉及的概念，将会丢失或代表性不足。

从您自己感兴趣的领域出发，最好在文本上训练自己的矢量，这对于两个方面都是最佳的，并且要确保矢量能够反映出文本中占主导地位的单词/短语感觉，而不是一般新闻或参考资料。

GoogleNews-vectors-negative300.bin的词汇中没有单词

问题描述投票：0回答：2

2个回答

最新问题

GoogleNews-vectors-negative300.bin的词汇中没有单词

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2