Word嵌入模型

Question

我一直在搜索并尝试实现词嵌入模型以预测词之间的相似性。我有一个由3,550个公司名称组成的数据集，其思想是用户可以提供一个新单词（该单词不会出现在词汇表中）并计算新名称与现有名称之间的相似度。

在预处理过程中，我摆脱了停用词和标点符号（连字符，点，逗号等）。另外，我应用词干和分隔前缀以希望获得更高的精度。然后，诸如BIOCHEMICAL之类的单词最终以BIO CHEMIC结束，该词被一分为二（前缀和主词）

平均公司名称长度由3个单词组成，其出现频率如下：

作为预处理结果的令牌将发送到word2vec：

#window: Maximum distance between the current and predicted word within a sentence
#min_count: Ignores all words with total frequency lower than this.
#workers: Use these many worker threads to train the model
#sg: The training algorithm, either CBOW(0) or skip gram(1). Default is 0s
word2vec_model = Word2Vec(prepWords,size=300, window=2, min_count=1, workers=7, sg=1)

模型包含词汇中的所有单词后，将为每个公司名称计算平均句子向量：df ['avg_vector'] = df2.apply（lambda row：avg_sentence_vector（row，model = word2vec_model，num_features = 300，index2word_set = set（word2vec_model.wv.index2word））。tolist（））

然后，将保存向量以进行进一步的查找：

##Saving name and vector values in file
df.to_csv('name-submission-vectors.csv',encoding='utf-8', index=False)

如果预处理后（去除停用词和标点符号）在词汇中不包含新的公司名称，那么我将再次创建模型并计算平均句子向量并再次保存。

我发现此模型无法正常工作。例如，计算最相似的单词pet得到以下结果：

ms=word2vec_model.most_similar('pet')

('fastfood', 0.20879755914211273)
('hammer', 0.20450574159622192)
('allur', 0.20118337869644165)
('wright', 0.20001833140850067)
('daili', 0.1990675926208496)
('mgt', 0.1908089816570282)
('mcintosh', 0.18571510910987854)
('autopart', 0.1729743778705597)
('metamorphosi', 0.16965581476688385)
('doak', 0.16890916228294373)

在数据集中，我有爪子或petcare之类的词，但其他词正在与pet词建立关系。

这是pet的近词的分布：

另一方面，当我使用GoogleNews-vectors-negative300.bin.gz时，我无法向词汇库添加新词，但是pet与周围的词之间的相似之处符合预期：

ms=word2vec_model.most_similar('pet')
('pets', 0.771199643611908)
('Pet', 0.723974347114563)
('dog', 0.7164785265922546)
('puppy', 0.6972636580467224)
('cat', 0.6891531348228455)
('cats', 0.6719794869422913)
('pooch', 0.6579219102859497)
('Pets', 0.636363685131073)
('animal', 0.6338439583778381)
('dogs', 0.6224827170372009)

这是最接近的单词的分布：

我想获得您的以下建议：

此数据集是否适合进行此模型？
数据集的长度是否足以允许word2vec“学习”单词之间的关系？
[我该如何改进模型以使word2vec创建与GoogleNews相同类型的关系，例如在相似的单词之间正确设置了单词pet？
考虑到当前数据集的性质，实现诸如fasttext之类的另一种选择是否可行？
您知道可与当前数据集一起使用以创建那些关系的任何公共数据集吗？

谢谢

Answer 1

Word2vec不会泛化为看不见的单词。

Answer 2

如果只想计算单词之间的相似度，则可能不需要在词汇表中插入新单词。

Word嵌入模型

问题描述投票：0回答：3

3个回答

最新问题

Word嵌入模型

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3