如何对某些术语进行额外加权的TF-IDF评分

问题描述 投票:0回答:1

我目前有一个tf-idf系统用于评分,并且我使用余弦相似度进行搜索。我想添加额外的权重,考虑到给定术语是否在文档标题中。但是,我不确定如何将标题数据与tf-idf分数结合在一起。有谁知道解决这个问题的好方法?

python search information-retrieval tf-idf cosine-similarity
1个回答
0
投票

有几种路径:您可以将相似性升级到BM25F(现场模型),也可以复制TF-IDF系统获取标题和正文数据。然后,您需要结合使用TitleScore和BodyScore,而不是每个文档都获得一个分数。

然后您可以试探性地确定重要性,例如,标题匹配为70%,正文为30%:

score = 0.7 * titleTFIDF(q, doc) + 0.3 * bodyTFIDF(q, doc)

或者您可以尝试从数据中学习权重。

© www.soinside.com 2019 - 2024. All rights reserved.