GoogleNews-vectors-negative300.bin的词汇中没有单词

问题描述 投票:0回答:2

[我正在尝试查看哪种预训练模型在新闻中包含常用短语,我认为GoogleNews-vectors-negative300.bin应该是一个全面的模型,但事实证明,它甚至不包含deep_learning,machine_learning,social_network,social_responsibility 。哪种预先训练的模型可以包含新闻,公共报道中经常出现的那些词?

import gensim

# Load Google's pre-trained Word2Vec model.
model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz', binary=True)

model.similarity('deep_learning', 'machine_learning')
python nlp gensim word2vec
2个回答
0
投票
这些是不太可能包含的MWE(多词表达式)。从理论上讲,您可以通过对构成MWE的每个单词的向量取平均值来对它们进行建模。

适用于包含向量的操作和获得的结果的不同考虑因素是:word2vec - what is best? add, concatenate or average word vectors?


0
投票
GoogleNews载体是Google在大约2012-2013年间针对大型内部新闻文章进行训练的。

[此外,似乎已经使用纯统计共现分析(类似于gensim Phrases类实现的分析)将单个单词提升为多单词短语-常常不符合人类水平对实体/概念的感知,缺少一些单词组合,过度组合了其他单词。

因此,那时那些晦涩(甚至还没有创造出来的!)概念,或者新闻报道中很少涉及的概念,将会丢失或代表性不足。

从您自己感兴趣的领域出发,最好在文本上训练自己的矢量,这对于两个方面都是最佳的,并且要确保矢量能够反映出文本中占主导地位的单词/短语感觉,而不是一般新闻或参考资料。

© www.soinside.com 2019 - 2024. All rights reserved.