[我正在尝试查看哪种预训练模型在新闻中包含常用短语,我认为GoogleNews-vectors-negative300.bin应该是一个全面的模型,但事实证明,它甚至不包含deep_learning,machine_learning,social_network,social_responsibility 。哪种预先训练的模型可以包含新闻,公共报道中经常出现的那些词?
import gensim
# Load Google's pre-trained Word2Vec model.
model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz', binary=True)
model.similarity('deep_learning', 'machine_learning')
适用于包含向量的操作和获得的结果的不同考虑因素是:word2vec - what is best? add, concatenate or average word vectors?
GoogleNews
载体是Google在大约2012-2013年间针对大型内部新闻文章进行训练的。 [此外,似乎已经使用纯统计共现分析(类似于gensim
Phrases
类实现的分析)将单个单词提升为多单词短语-常常不符合人类水平对实体/概念的感知,缺少一些单词组合,过度组合了其他单词。
因此,那时那些晦涩(甚至还没有创造出来的!)概念,或者新闻报道中很少涉及的概念,将会丢失或代表性不足。
从您自己感兴趣的领域出发,最好在文本上训练自己的矢量,这对于两个方面都是最佳的,并且要确保矢量能够反映出文本中占主导地位的单词/短语感觉,而不是一般新闻或参考资料。