决定文本或句子在内容上是等同的

问题描述 投票:0回答:1

确定相似性作为距离Word Mover的距离的经典例子,例如这里https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html,GoogleNews-vectors-negative300.bin上的word2vec模型,D1 =“奥巴马与伊利诺伊州的媒体对话”,D2 =“总统在芝加哥迎接新闻界“,D3 =”橘子是我最喜欢的水果“。当计算wmd距离时:距离(D1,D2)= 3.3741,距离(D1,D3)= 4.3802。所以我们理解(D1,D2)比(D1,D3)更相似。 vmd距离的阈值是多少,以确定这两个句子实际上包含几乎相同的信息?也许在句子D1和D2的情况下,3.3741的值太大,实际上这些句子是不同的?例如,当存在问题,正确答案的样本和学生的答案时,需要做出这样的决定。 gojomo在回答之后添加:让我们推迟识别并自动理解逻辑以供日后使用。让我们考虑这样一种情况,即在两个句子中有一个对象的枚举,或一个对象的属性和动作以积极的方式,我们需要评估这两个句子的内容有多相似。

word2vec similarity wmd
1个回答
1
投票

我不相信有任何绝对的门槛可以按你的意愿使用。

“Word Mover的距离”可以在寻找高度相似的文本时提供一些令人印象深刻的结果,特别是在与其他候选文本的相对比较中。

然而,它的大小可能会受到文本大小的影响,而且它还不能理解严格的语法/语义。因此,诸如微妙的否定或对比之类的事情,或对母语人士来说无意义的事情,将不会被突出显示为与其他陈述非常“不同”。

例如,两个短语“许多历史学家都认为奥巴马绝对是21世纪最好的总统”,而且“许多历史学家都认为奥巴马绝对不是21世纪最好的总统”,大多数人都会注意到它与大多数人相似。基于单词统计的度量,例如Word Mover的距离。然而,插入一个词意味着他们传达了一些相反的观点。

© www.soinside.com 2019 - 2024. All rights reserved.