是否有能够检测短语的预训练word2vec模型

问题描述 投票:0回答:1

是否存在任何预训练的word2vec模型,其数据包含单个单词或多个单词,例如'drama','drama_film'或'africanamericancommunity'。是否有使用大型数据集训练过的此类模型,例如为gloVE训练的数据集?

word2vec glove
1个回答
0
投票

我在Google上进行了快速搜索,但不幸的是我找不到经过预训练的模型。训练自己的模型以检测短语的一种方法是使用二元模型。因此,您可以进行大型Wikipedia转储,例如,预处理使用了bigrams并训练了word2vec模型。一个可以帮助您实现这一目标的优秀github项目是https://github.com/KeepFloyding/wikiNLPpy关于该主题的一篇不错的文章:https://towardsdatascience.com/word2vec-for-phrases-learning-embeddings-for-more-than-one-word-727b6cf723cf

google pre-trained word2vec中所述,谷歌预先训练的模型已经包含一些短语(二元组)。

© www.soinside.com 2019 - 2024. All rights reserved.