例如: 问题:美国的首都是哪里? 预期答案:华盛顿特区是美国的首都。 实际答案:美国是华盛顿特区的首都
答案在词汇上相似,但由于主宾交换而在语义上不同。
我是 NLP 新手,我读过一些关于 Doc2Vec 的文章,但是提供的示例不够相似,不足以让我怀疑。请建议我应该尝试的方法以及任何参考资料。
相对浅薄且忽略词序的算法 - 例如 word2vec 和“段落向量”(在许多实现中又称为
Doc2Vec
) - 无法分辨这两个句子之间的语义差异。
您必须使用更深入的模型,对语法和词序如何影响含义有一定的了解。
看看使用更深层次的循环网络来总结句子/段落的东西,例如 BERT 和相关/后续工作,或与法学硕士相关的文本向量化器。