向量空间模型 - 计算查询向量[0,0.707,0.707]

问题描述 投票:-1回答:1

我正在阅读“信息检索简介”(Christopher Manning)这本书,当我引入查询“嫉妒八卦”时我就陷入了第6章,它表明相关的向量单位是[0,0.770,0.707 ](https://nlp.stanford.edu/IR-book/html/htmledition/queries-as-vectors-1.html)考虑条款影响,嫉妒和八卦。我试图通过计算tfidf来计算它,假设: - 对于嫉妒和八卦,Tf等于1 - 如果我们将其计算为log(N / df)且N = 1(我只有1个查询),Idf总是等于0并且它是我的文档),df = 1表示嫉妒和八卦=> log(1)= 0由于idf为0,结果是tfidf为0.所以我决定计算查询向量的每个权重原始tf除以欧氏长度。在这种情况下,欧几里得长度是sqrt(1 + 1)= 1。我无法获得确定[0,0.707,0.707]是查询向量的公式。有人能帮我吗?

stanford-nlp information-retrieval tf-idf
1个回答
0
投票

我没有解决这个问题,但我认为问题可能是sqrt(1+1)sqrt(2),所以当你正常化时,每个1都变成了1/sqrt(2) = 0.707

© www.soinside.com 2019 - 2024. All rights reserved.