矢量化新的文本数据

Question

我在“棕色语料库”上训练了一个Word2vec模型。

我想将矢量化的单词应用到一个新的文本文档，然后我想通过Affinity Propagation的方式聚类。

import gensim
import nltk
from nltk.corpus import brown

sentences = brown.sents()
model = gensim.models.Word2Vec(sentences, min_count=1)
model.save('brown_model')

model = gensim.models.Word2Vec.load('brown_model')

我的文本文档包含一系列请求，例如：

"I want to go to the store"

"I want the president to help me"

"Clean up my house"

我的问题是：

如何将矢量化的Brown corpus应用于我自己的文本数据以用于后续聚类目的？

Answer 1

如果我理解的话，后续聚类目的的问题可以解决如下：

words = set(brown.words())
print (len(words))
...
word_presented = words.intersection(model.vocab.keys())

看看this article

矢量化新的文本数据

问题描述投票：1回答：1

1个回答

最新问题

矢量化新的文本数据

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1