给定文档单词列表,例如
[['cow','boy','hat','mat],['village','boy','water','cow']....]
,gensim可以用来获取bi-gram,如下:
bigrams = gensim.models.Phrases(data_words, min_count=1,threshold=1)
bigram_model = gensim.models.phrases.Phraser(bigrams)
我想知道如何获得在bigram_model中检测到的每个bi-gram的分数?
事实证明,就像使用一样简单:
bigram_model.phrasegrams
产生如下所示的结果:
{(b'cow', b'boy'): 23.3228613654742079,
(b'village', b'water'): 1.3228613654742079}
分数=
sentence_bleu(参考,候选,权重=(0.25,0.25,0.25,0.25)) 打印(分数)