我有15个文档的集合,其中吸烟出现在其中10个文档中,而Health出现在其中2个文档中。
我需要在文档中的tf-idf加权之后检查这些术语的值,其中单词吸烟和健康分别出现一次。
我吸烟的结果是0.875,健康的结果是0.176。这些正确吗?
谢谢!
您提供的信息不足以检查。除了包含一个单词的文档数量之外,重要的是要知道它们在每个文档中出现的频率。查阅Wikipedia上的this文章,有一个计算示例。