tf-idf 和以前未见过的术语

Question

TF-IDF（词频 - 逆文档频率）是信息检索的主要内容。但这不是一个合适的模型，当新术语引入语料库时，它似乎就会崩溃。当查询或新文档有新术语时，尤其是频率很高的情况下，人们如何处理。在传统的余弦匹配下，这些不会对总匹配产生影响。

Answer 1

呃，不，不会崩溃。

假设我有两个文件，A“黄鼠狼山羊”和B“奶酪地鼠”。如果我们实际上将它们表示为向量，它们可能看起来像这样：

A [1,1,0,0]
B [0,0,1,1]

如果我们已经在索引文件中分配了这些向量，是的，当需要添加新术语时我们就会遇到问题。但它的技巧是，那个向量永远不存在。关键是倒排索引。

就不影响余弦匹配的新术语而言，这可能是正确的，具体取决于您的意思。如果我使用查询“marmoset kungfu”搜索我的 (A,B) 语料库，则语料库中既不存在狨猴也不存在 kungfu。因此，代表我的查询的向量将与集合中的所有文档正交，并获得不好的余弦相似度得分。但考虑到没有一个条款匹配，这似乎很合理。

Answer 2

当您谈论“分解”时，我认为您的意思是新术语对相似性度量没有影响，因为它们在原始词汇定义的向量空间中没有任何表示。

处理此平滑问题的一种方法是考虑将词汇表固定为较小的词汇表，并将所有少于特定阈值的单词视为属于特殊的

_UNKNOWN_

单词。

但是，我认为你对“崩溃”的定义不是很清楚；你能澄清一下你的意思吗？如果您能澄清这一点，也许我们可以讨论解决这些问题的方法。

tf-idf 和以前未见过的术语

问题描述投票：0回答：2

2个回答

最新问题

tf-idf 和以前未见过的术语

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2