tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

如何获取TFIDF转换器中的值？

我是 Python 新手，最近学习使用 Bag of Words 和 TFIDF 进行文本处理。我试图使用以下代码获取 TFIDF 中第 1001 列中的单词：计数向量化器 =

python tf-idf

回答 1 投票 0

如何获取文档查询的余弦相似度分数

我正在做一个文本分类程序，其中我有一个包含 5 个类别的数据集（“商业”、“娱乐”、“本地”、“体育”、“世界”）。该数据集包含 5 个文件夹（针对 5 个类），共 100 txt ...

python python-3.x tf-idf cosine-similarity

回答 1 投票 0

TfIdfVectorizer：固定词汇的向量化器如何处理新词？

我正在研究约 10 万篇研究论文的语料库。我正在考虑三个领域：纯文本标题抽象的我使用 TfIdfVectorizer 获取明文字段的 TfIdf 表示形式并提供

python scikit-learn tf-idf cosine-similarity oov

回答 1 投票 0

tf-idf 和以前未见过的术语

TF-IDF（词频 - 逆文档频率）是信息检索的主要内容。但这不是一个合适的模型，当新术语引入语料库时，它似乎就会崩溃......

nlp statistics tf-idf oov

回答 2 投票 0

AttributeError：在 NLP 任务中调用 model.fit() 时，“tuple”对象没有属性“rank”

我正在关注这个教程 https://towardsdatascience.com/another-twitter-sentiment-analysis-with-python-part-9-neural-networks-with-tfidf-vectors-using-d0b4af6be6d7 然而，在实施的同时...

python keras neural-network nlp tf-idf

回答 1 投票 0

标准化 TF-IDF 结果

我想规范化从给定代码中获得的 tfidf 结果： for (int docNum = 0; docNum < ir.numDocs(); docNum++) { TermFreqVector tfv = ir.getTermFreqVector(doc...

normalization normalize tf-idf

回答 2 投票 0

处理来自不同文档的相同单词

我正在制作一个Python类，它计算文档中每个单词的tfidf权重。现在我的数据集中有 50 个文档。在这些文档中，许多单词相交，因此有多个相同的单词

python machine-learning text-classification tf-idf

回答 1 投票 0

elasticsearch如何统计tf-idf？看起来很奇怪

我有一个索引，其中包含存储系统信息的文档和复制到 searchable_keys 字段中的可搜索字段。在这种情况下，只有一个这样的字段 - name。这是定义...

elasticsearch nlp tokenize tf-idf n-gram

回答 1 投票 0

按作者绘制颜色，但按 kmeans/tf-idf python 进行聚类

嘿嘿！我第一次使用 k-means/tf-idf/document 集群。我使用 k-means/tf-idf 对文本文件进行聚类，效果很好。我绘制了 (PCA) 并且可以很好地看到集群。但现在我想要作者......

matplotlib plot cluster-analysis k-means tf-idf

回答 1 投票 0

如何使用tf-idf提取计算

我使用TfidfVectorizer来提取TF-IDF，但不知道它是如何计算这样的结果的。当我手动计算时，它给出了不同的答案，所以我想提取函数

python tf-idf tfidfvectorizer

回答 1 投票 0

何时使用 tf-idf 的对数基数？

我正在开发一个简单的搜索引擎，我使用 TF-IDF 公式来评估搜索词的重要性。我看到人们使用不同的公式基础，但我没有看到什么时候...

c tf-idf

回答 1 投票 0

存储TfIdf模型，然后加载它来测试新数据集

我试图存储训练数据集后获得的 TfIdf 矢量器/模型（不知道它是否是一个正确的词），然后加载存储的模型以适应新的数据集。型号是...

python tf-idf joblib tfidfvectorizer

回答 2 投票 0

属性错误：找不到 getfeature_names ；使用 scikit-learn

从 sklearn.feature_extraction.text 导入 CountVectorizer 向量化器 = CountVectorizer() 矢量化器 = 矢量化器.fit(word_data) freq_term_mat = 矢量化器.transform(word_data) 来自sklearn。

python scikit-learn tf-idf

回答 4 投票 0

100万行模糊匹配字符串

我有一个包含 100 万行的数据库，根据用户的输入，我需要为他找到最相关的匹配项。过去编写代码的方式是使用 fuzzywuzzy 库。比例

python search tf-idf fuzzy-search fuzzywuzzy

回答 1 投票 0

计算词频权重和IDF、逆文档频率时为什么要用log？

IDF 的公式是 log( N / df t ) 而不是 N / df t 。其中 N = 集合中的文档总数，df t = 术语 t 的文档频率。据说使用原木是因为它“抑制”了

information-retrieval tf-idf

回答 5 投票 0

Pickle Tfidfvectorizer 以及自定义分词器

我正在使用服装标记器传递给 TfidfVectorizer。该标记生成器依赖于另一个文件中的外部类 TermExtractor。我基本上想构建一个基于 c 的 TfidVectorizer...