tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

Python Pipeline只显示了一个步骤

我尝试用TfIdf作为第一步为短文本创建SVM分类器。当我创建Pipeline时，将其调整并获得准确度分数 - 一切看起来都正确。 vectorizer = TfidfVectorizer（analyzer ='word'，...

python scikit-learn svm pipeline tf-idf

回答 1 投票 0

sklearn管道：在GridSearchCV中应用TimeSeriesSplit之前，在完整的训练集上运行TfidfVectorizer？

我确信这是可能的，但我无法弄明白。使用带有num_split = 5的TimeSeriesSplit提供训练数据集，分割看起来像这样：[0]：[1] [0 1]：[2] [0 1 2]：[3] [...

python scikit-learn tf-idf tfidfvectorizer gridsearchcv

回答 1 投票 0

SO帖子的Tf-idf（标签只能出现一次）

使用stackoverflow数据转储，我正在分析用pytorch或keras标记的SO帖子。具体来说，我计算每个co标签出现的次数（即pytorch中不是pytorch的标签......

python nlp tf-idf

回答 1 投票 0

将TF-IDF与预先训练的Word嵌入相结合

我有一个网站元描述列表（128k描述;每个有平均20-30个单词），我正在尝试建立一个相似性排名（如：给我看这个网站元的5个最相似的网站...

nlp spacy tf-idf word-embedding tfidfvectorizer

回答 1 投票 1

如何将稀疏矩阵数组转换为json python

我正在尝试将TF-IDF稀疏矩阵转换为json格式。将其转换为pandas datafram（toarray（）或todense（））会导致内存错误。所以我想避免这些方法。还有其他方式......

python json matrix sparse-matrix tf-idf

回答 1 投票 0

SMOTE初始化期望n_neighbors <= n_samples，但是n_samples <n_neighbors

我已经预先清理了数据，下面显示了前4行的格式：[IN] df.head（）[OUT]年份清理0 1909年熟悉小时接收信函职员冠.....

scikit-learn knn tf-idf oversampling imblearn

回答 1 投票 1

在这个例子中，scikit-learn的tf-idf是否正确？最常见的单词得分很高

来自sklearn.feature_extraction.text import TfidfVectorizer documents = [“汽车行驶在路上”，“卡车在高速公路上行驶”，“卡车是”] ......

tf-idf tfidfvectorizer

回答 1 投票 0

如何使用sklearn的SGDClassifier返回前N个预测的准确率？

我试图修改这篇文章中的结果（如何使用sklearn的SGDClassifier获得前3或前N个预测）来获得返回的准确率，但是我得到的准确率为零，我......

python scikit-learn tf-idf

回答 2 投票 2

Tf-idf匹配列表与列表，而不是一个列表

我是python的新手，我正在尝试使用tf-idf匹配。我按照本文的教程进行操作。我想知道我是否可以匹配输入列表与另一个已经列出的列表...

python string-matching tf-idf

回答 1 投票 2

单个学期的TF-IDF分数是否合并？

我正在阅读有关TF-IDF的内容，以便我可以从我的语料库中过滤掉常用词。在我看来，你得到每个单词，文档对的TF-IDF分数。你注意哪个分数？做......

nlp tf-idf stop-words

回答 1 投票 0

值列表的余弦相似度

我试图找到字符串列表的余弦相似性。我使用sklearn tfidf向量首先将文本转换为数字向量，然后使用成对的cosine_similarity api来查找...

python scikit-learn tf-idf tfidfvectorizer

回答 2 投票 1

从一组文档中提取重要的子部分和与之关联的子文档集

我有一套文件，所有这些文件都属于“犯罪”类别。现在，我想将它们分类为多个（可能是重叠的）文档集群，其中每个集群都是......

cluster-analysis document tf-idf

回答 2 投票 0

在整个数据集上计算TF-IDF还是仅在训练数据上计算？

在本书的第七章“TensorFlow机器学习手册”中，作者在预处理数据时使用了fit_transform函数scikit-learn来获取文本的tfidf功能进行训练。 ...

machine-learning tensorflow scikit-learn nlp tf-idf

回答 2 投票 4

如何通过scikit-learn TfidfVectorizer计算TF-IDF

我运行以下代码将文本矩阵转换为TF-IDF矩阵。 text = ['这是一个字符串'，'这是另一个字符串'，'TFIDF计算计算'，'TfIDF是TF和IDF的产物']来自......

nlp scikit-learn tf-idf

回答 3 投票 13

对于具有训练模型的相同测试数据的不同结果

我们在python中使用joblib加载了训练模型，并给出了不同大小的测试集作为预测输入。例如。我们将测试集命名为S1，S2，其中S1有100个实例，S2有1000个......

python machine-learning tf-idf ensemble-learning tfidfvectorizer

回答 1 投票 -3

Tfidfvectorizer - 如何查看已处理的令牌？

如何检查TfidfVertorizer（）中标记的字符串？如果我没有在参数中传递任何内容，TfidfVertorizer（）将使用一些预定义的方法对字符串进行标记。我想观察......

python scikit-learn nlp tf-idf tfidfvectorizer

回答 3 投票 1

如何在单个文档中查找单词相关性？

我想在单个文档中找到某些词（如经济，技术）的相关性。该文档大约有30页，其目的是提取所有文本并确定与此相关的单词...

python nltk word tf-idf tfidfvectorizer

回答 1 投票 0

使用spacy和textacy。需要在原始推文的语料库中找到tf-idf得分，但无法导入文本向量化

我是这些框架以及NLP的新手。我正在按照一个示例给出以下代码片段来计算推文中所有令牌的tf-idf分数。但是我一直在......

python-3.x tf-idf spacy textacy

回答 1 投票 3

一般来说，TF-IDF何时会降低准确度？

我正在使用朴素贝叶斯模型训练一个包含200000条评论的正文和负面评论的语料库，我注意到执行TF-IDF实际上降低了准确性（同时测试...

sentiment-analysis tf-idf text-classification naivebayes

回答 3 投票 0

解释文档中单词的TF-IDF分数之和

首先让我们提取每个文档每个术语的TF-IDF分数：来自gensim导入语料库，模型，相似性文档= [“实验室abc计算机应用程序的人机界面”，“...

python statistics nlp tf-idf gensim

回答 5 投票 18

tf-idf 相关问题

最新问题