tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

Python中tfidf稀疏矩阵的逻辑回归

我正在尝试从头开始编写逻辑回归,并得到以下错误。我已经使用sklearn的tfidfvectorizer在执行数据后根据推特令牌创建了一个稀疏的tfidf矩阵...

回答 1 投票 0

我如何在python中从大数据集(csv文件)的单个列上运行TF-IDF?

我正在尝试创建一个运行大数据集的TF-IDF的python程序。它具有多列和几行数据。我的问题是我不知道如何将其限制为仅在以下之一上运行:

回答 1 投票 0

gensim.corpora.Dictionary是否保存了词频?

gensim.corpora.Dictionary是否保存了词频?从gensim.corpora.Dictionary,可以获取单词的文档频率(即,某个单词出现了多少文档...

回答 5 投票 5

TfidfVectorizer赋予停用词以高的权重

给出以下代码:从sklearn.feature_extraction.text导入pd作为大熊猫。import TfidfVectorizer import urllib.request#处理来自bs4的url内容的lib import BeautifulSoup ...

回答 1 投票 1

sklearn oneclass svm KeyError

[我的数据集是恶意软件和良性软件的系统调用集,我对其进行了预处理,现在看起来像这样NtQueryPerformanceCounter NtProtectVirtualMemory NtProtectVirtualMemory ...

回答 1 投票 0

Python(TextBlob)TF-IDF计算

我研究了使用Python计算文档中单词的TF-IDF分数的几种方法。我选择使用TextBlob。我得到一个输出,但是,它们是负值。我了解...

回答 2 投票 2

如何从pyspark SparseVector获取密钥

我进行了tf-idf转换,现在我想从结果中获取键和值。我正在使用以下udf代码获取值:def extract_values_from_vector(vector):返回向量。...

回答 1 投票 1

按特定值排序

我有一个包含文本及其TFIDF分数的列表:[['penguji',117 0.594552名称:rank,dtype:float64],['saat',126 0.263102名称:rank,dtype:float64],['melakukan ',92 0.223703 ...

回答 2 投票 1

R-如何分别解决TermDocumentMatrix()和DocumentTermMatrix()的数据丢失和错误?

我有1000个样本的Twitter数据。并尝试对它们进行tf和tf-idf分析,以衡量推文中每种表情符号的重要性。共有437个独特的表情符号,而810个...

回答 1 投票 0

KNN用于文本分类,但是train和class在R中的长度不同

你好,我正在尝试对文本进行分类,这是代码df

回答 1 投票 0

查找相对于所有文档的关键词

我有大约100.000多个文本文档。我想找到一种方法来回答这个(有点模棱两可)的问题:对于给定的文档子集,n个最常用的单词是什么-与整套单词有关...

回答 1 投票 0

删除TFIDF结果的同义词在python中

我目前正在从事一个项目,该项目使用python中的tfidf获得文档集中最相关的10个单词。但是,在相同的单词及其复数形式或副词形式上会有结果...

回答 1 投票 0

如何在数据集上计算TF-IDF?

我有文章的数据集,这些文章中每个单词出现多少:如何计算TF-IDF?导入matplotlib.pyplot as plt导入numpy as np导入seaborn as sns; sns.set()from ...

回答 1 投票 0

如何将IP转换为向量值

我在机器学习中有一个数据集,我们使用Tf-Idf从文本数据中制成矢量,但我无法在Tf-idf中传递此值,这里的数据是remote_ip datetime1 ...

回答 1 投票 3

如何使用TfidfVectorizer应用Kfold?

我在与Tfidf进行K折交叉验证时遇到问题。它给了我这个错误ValueError:设置一个带有序列的数组元素。我看过其他有相同问题的问题,但是...

回答 1 投票 1

如何在语义上比较两个句子?

我正在尝试为大学构建一个应用程序,以便学生可以在其上进行考试,但是我遇到了文章问题,我无法将学生的答案与...的答案进行比较。]] >

回答 1 投票 1

是否有任何特定的度量或方法来减少TF IDF词汇的尾巴?

我已经从gensim或tfidfvectorizer获得了TF IDF词汇。是否有任何特定的度量标准或方法可以减少TF IDF词汇的尾巴?我的意思是Zipf图的尾巴。如何形象化? ...

回答 1 投票 0

如何对某些术语进行额外加权的TF-IDF评分

我目前有一个tf-idf系统用于评分,并且我使用余弦相似度进行搜索。我想添加额外的权重,以考虑给定术语是否位于...

回答 1 投票 0

TFIDF跨多个文本文件排列单词

我检索了维基百科的文章,并提取了一些与气候变化相关的网址,并将其内容与网址一起保存为文件名。现在我想找出最受欢迎的...

回答 1 投票 0

为什么tfidf对象占用这么多空间?

我大约有100,000篇长文章,总共约5GB的文本,当我从sklearn执行TfidfVectorizer时,它将构建一个6GB的模型。那怎么可能?并不是只需要存储...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.