我训练了Doc2Vec
模型我试图得到预测。
我用
test_data = word_tokenize("Филип Моррис Продактс С.А.".lower())
model = Doc2Vec.load(model_path)
v1 = model.infer_vector(test_data)
sims = model.docvecs.most_similar([v1])
print(sims)
回报
[('624319', 0.7534812092781067), ('566511', 0.7333904504776001), ('517382', 0.7264763116836548), ('523368', 0.7254455089569092), ('494248', 0.7212602496147156), ('382920', 0.7092794179916382), ('530910', 0.7086726427078247), ('513421', 0.6893941760063171), ('196931', 0.6776881814002991), ('196947', 0.6705600023269653)]
接下来我试着知道这个数字是什么文字
model.docvecs['624319']
但它只返回向量表示
array([ 0.36298314, -0.8048847 , -1.4890883 , -0.3737898 , -0.00292279,
-0.6606688 , -0.12611026, -0.14547637, 0.78830665, 0.6172428 ,
-0.04928801, 0.36754376, -0.54034036, 0.04631123, 0.24066721,
0.22503968, 0.02870891, 0.28329515, 0.05591608, 0.00457001],
dtype=float32)
那么,有没有办法从模型中获取此标签的文本?加载火车数据集需要花费大量时间,因此我尝试找出另一种方法。
没有办法将doc向量直接转换回原始文本(有关单词排序的信息等在文本缩减过程中丢失 - >向量)。
但是,在为TaggedDocument
创建Doc2Vec()
s时,可以通过在语料库列表中使用索引标记每个文档来检索原始文本。假设您有一个包含在名为texts
的列表中的句子/文档语料库。像这样使用enumerate()
为每个句子生成一个唯一的索引i
,并将其作为tags
的TaggedDocument
参数传递:
tagged_data = []
for i, t in enumerate(texts):
tagged_data.append(TaggedDocument(words=word_tokenize(c.lower()), tags=[str(i)]))
model = Doc2Vec(vector_size=VEC_SIZE,
window=WINDOW_SIZE,
min_count=MIN_COUNT,
workers=NUM_WORKERS)
model.build_vocab(tagged_data)
然后在训练之后,当你从model.docvecs.most_similar()
得到结果时,每个元组中的第一个数字将成为你原始语料库文本列表的索引。例如,如果您运行model.docvecs.most_similar([some_vector])
并获取:
[('624319', 0.7534812092781067), ('566511', 0.7333904504776001), ('517382', 0.7264763116836548), ('523368', 0.7254455089569092), ('494248', 0.7212602496147156), ('382920', 0.7092794179916382), ('530910', 0.7086726427078247), ('513421', 0.6893941760063171), ('196931', 0.6776881814002991), ('196947', 0.6705600023269653)]
...然后你可以通过索引到你的初始语料库列表中检索第一个result('624319', 0.7534812092781067)
的原始文件:texts[624319]
。
或者如果你想循环并获得所有最相似的文本,你可以做类似的事情:
most_similar_docs = []
for d in model.docvecs.most_similar([some_vector]):
most_similar_docs.append(texts[d[0]])