tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

如何获取TFIDF转换器中的值?

我是 Python 新手,最近学习使用 Bag of Words 和 TFIDF 进行文本处理。 我试图使用以下代码获取 TFIDF 中第 1001 列中的单词: 计数向量化器 =

回答 1 投票 0

如何获取文档查询的余弦相似度分数

我正在做一个文本分类程序,其中我有一个包含 5 个类别的数据集(“商业”、“娱乐”、“本地”、“体育”、“世界”)。该数据集包含 5 个文件夹(针对 5 个类),共 100 txt ...

回答 1 投票 0

TfIdfVectorizer:固定词汇的向量化器如何处理新词?

我正在研究约 10 万篇研究论文的语料库。我正在考虑三个领域: 纯文本 标题 抽象的 我使用 TfIdfVectorizer 获取明文字段的 TfIdf 表示形式并提供

回答 1 投票 0

tf-idf 和以前未见过的术语

TF-IDF(词频 - 逆文档频率)是信息检索的主要内容。但这不是一个合适的模型,当新术语引入语料库时,它似乎就会崩溃......

回答 2 投票 0

AttributeError:在 NLP 任务中调用 model.fit() 时,“tuple”对象没有属性“rank”

我正在关注这个教程 https://towardsdatascience.com/another-twitter-sentiment-analysis-with-python-part-9-neural-networks-with-tfidf-vectors-using-d0b4af6be6d7 然而,在实施的同时...

回答 1 投票 0

标准化 TF-IDF 结果

我想规范化从给定代码中获得的 tfidf 结果: for (int docNum = 0; docNum < ir.numDocs(); docNum++) { TermFreqVector tfv = ir.getTermFreqVector(doc...

回答 2 投票 0

处理来自不同文档的相同单词

我正在制作一个Python类,它计算文档中每个单词的tfidf权重。现在我的数据集中有 50 个文档。在这些文档中,许多单词相交,因此有多个相同的单词

回答 1 投票 0

elasticsearch如何统计tf-idf?看起来很奇怪

我有一个索引,其中包含存储系统信息的文档和复制到 searchable_keys 字段中的可搜索字段。在这种情况下,只有一个这样的字段 - name。 这是定义...

回答 1 投票 0

按作者绘制颜色,但按 kmeans/tf-idf python 进行聚类

嘿嘿! 我第一次使用 k-means/tf-idf/document 集群。 我使用 k-means/tf-idf 对文本文件进行聚类,效果很好。我绘制了 (PCA) 并且可以很好地看到集群。 但现在我想要作者......

回答 1 投票 0

如何使用tf-idf提取计算

我使用TfidfVectorizer来提取TF-IDF,但不知道它是如何计算这样的结果的。当我手动计算时,它给出了不同的答案,所以我想提取函数

回答 1 投票 0

何时使用 tf-idf 的对数基数?

我正在开发一个简单的搜索引擎,我使用 TF-IDF 公式来评估搜索词的重要性。我看到人们使用不同的公式基础,但我没有看到什么时候...

回答 1 投票 0

存储TfIdf模型,然后加载它来测试新数据集

我试图存储训练数据集后获得的 TfIdf 矢量器/模型(不知道它是否是一个正确的词),然后加载存储的模型以适应新的数据集。 型号是...

回答 2 投票 0

属性错误:找不到 getfeature_names ;使用 scikit-learn

从 sklearn.feature_extraction.text 导入 CountVectorizer 向量化器 = CountVectorizer() 矢量化器 = 矢量化器.fit(word_data) freq_term_mat = 矢量化器.transform(word_data) 来自sklearn。

回答 4 投票 0

100万行模糊匹配字符串

我有一个包含 100 万行的数据库,根据用户的输入,我需要为他找到最相关的匹配项。 过去编写代码的方式是使用 fuzzywuzzy 库。比例

回答 1 投票 0

计算词频权重和IDF、逆文档频率时为什么要用log?

IDF 的公式是 log( N / df t ) 而不是 N / df t 。 其中 N = 集合中的文档总数,df t = 术语 t 的文档频率。 据说使用原木是因为它“抑制”了

回答 5 投票 0

Pickle Tfidfvectorizer 以及自定义分词器

我正在使用服装标记器传递给 TfidfVectorizer。该标记生成器依赖于另一个文件中的外部类 TermExtractor。 我基本上想构建一个基于 c 的 TfidVectorizer...

回答 2 投票 0

R 中的多词和 TF-IDF 文本分析

我对 R 还很陌生,我正在尝试在一堆报告中运行文本分析和 TF-IDF,考虑我构建的字典中的一组特定单词。下面的代码提供了......的结果

回答 1 投票 0

是否有任何预训练的词嵌入可用于对源代码进行分类?

我正在尝试对从堆栈溢出中获取的源代码片段语料库进行分类。我正在探索各种技术,例如 Tf-Idf、带有 CNN 的 keras 嵌入层、bert 等。 由于源代码分类...

回答 1 投票 0

将每个样本分别除以其最大特征值,或将所有样本除以整个数据集的最大值

我正在尝试重现一篇使用tf-idf方法的论文。在数据预处理过程中,有一个步骤涉及特征缩放。在原始论文中,它说:“我们限制世界......

回答 1 投票 0

Python TfidfVectorizer 抛出:空词汇;也许文档只包含停用词”

我正在尝试使用Python的Tfidf来转换文本语料库。 但是,当我尝试对其进行 fit_transform 时,出现值错误 ValueError:emptyvocabulary;也许这些文件只包含停止...

回答 5 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.