tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

Spark-HashingTF inputCol接受一列,但我想要更多

我正在尝试在Spark中使用HashTF,但是我有一个主要问题。如果inputCol仅具有像HashingTF(inputCol =“ bla”,outputCol =“ tf_features”)这样的一列,则它可以正常工作。但是,如果我尝试添加更多...

回答 1 投票 0

我无法使用text2vec为测试数据创建tf-idf矩阵

我正在按照本教程进行操作,就像我在进行训练时一样,但是它总是说同样的话。有人知道这有什么问题吗? >#构造样本文档项矩阵con ... ...>

回答 1 投票 0

如何在python 3中创建idf矩阵?

[我有一个句子列表,并用TfidfVectorizer句子将它们矢量化= ['这真的很好,'我很喜欢这种食物'] tfidf = TfidfVectorizer()vals = tfidf.fit_transform(...

回答 1 投票 0

对测试数据使用fit_transform后“尺寸不匹配”的说明

我正在阅读一些有关NLP的代码,并且看到X_test在分配时不具有fit_transform(下面的代码最后一行)。当我尝试使用像X_train这样的fit_transform进行操作时,继续......>

回答 1 投票 0

[使用tf-idf-Python的文档之间的余弦相似度和TS-SS相似度

计算基于文本的文档之间的余弦相似度的一种常见方法是计算tf-idf,然后计算tf-idf矩阵的线性核。 TF-IDF矩阵使用...

回答 1 投票 1

如何在熊猫数据帧上使用sklearn TFIdfVectorizer

我正在使用一个用制表符分隔的文件,看起来像是这样:0 abch7619 Lorem ipsum dolor sit amet,奉献爱迪生,sed do eiusmod tempor incididunt ut Labore et dolore magna aliqua ....

回答 1 投票 0

用Python标记10个文档的语料库

我是Python编码的新手,因此弄清楚如何编写更高级的动作已成为我的挑战。我的任务是计算10个文档的语料库的TF-IDF。但是,我对如何使用...

回答 2 投票 0

使用sklearn为python中的可变n-gram计算TF-IDF

问题:使用scikit-learn查找特定词汇表的可变n-gram的命中数。说明。我从这里得到了例子。想象我有一个语料库,我想找到多少个匹配项...

回答 1 投票 1

tf-idf模型如何在测试数据期间处理看不见的单词?

我读过许多博客,但对答案不满意,假设我在一些文件示例中训练了tf-idf模型:“约翰喜欢恐怖电影。” “ Ryan看戏剧电影” ------------...

回答 1 投票 0

N_gram频率python NTLK

我想编写一个函数,该函数返回给定文本的n元语法中每个元素的频率。请帮助。我这样做是为了计算2克代码的频率:从nltk import FreqDist ...

回答 1 投票 0

如何使用tf-idf选择停用词? (非英语语料库)

我设法评估了给定语料库的tf-idf函数。如何找到每个文档的停用词和最佳词汇?我了解给定单词和文档的低tf-idf意味着...

回答 2 投票 7

如何在NLP中获得“单词”的重要性(TFIDF + Logistic回归)

我具有获取tfidf功能的功能,例如:def get_tfidf_features(data,tfidf_vectorizer = None,ngram_range =(1,2)):“”“创建tfidf功能并将其作为稀疏矩阵返回。如果没有,...] >

回答 1 投票 1

如何使Python中元素的倒排列表

我把所有的条款和许多孩子列表(所有这些都存储在文件和我从文件中读取他们),这些列表中的文件看起来像我是如何写在下面他们的主列表。我想找到...

回答 1 投票 0

用于多标签分类问题的tf-idf矢量化器

我有一个针对大量文本的多标签分类项目。我在文本(train_v ['doc_text'])上使用了tf-Idf矢量化器,如下所示:tfidf_transformer = TfidfTransformer()X_counts = ...

回答 1 投票 1

nlp multilabel分类tf vs tfidf

我正在尝试解决NLP多标签分类问题。我有大量的文件应该分为29类。我解决这个问题的方法是,在清理完......

回答 1 投票 2

对于完全相同的单词,idf结果是不同的

我在python中运行tfidf模型。 texts = [** tokenized words **] dictionary = corpora.Dictionary(texts)corpus = list(map(dictionary.doc2bow,texts))test_model = models.TfidfModel(corpus)corpus_tfidf = ...

回答 1 投票 0

tfidf矢量化器和tfidf变压器有什么区别

我知道tfidf矢量化器的公式是字数/总计数* log(文件数/存在字的文件数)我看到scikit中的tfidf变换器学习和...

回答 1 投票 0

scikit学习tfidf的实现不同于手动实现

我尝试使用公式手动计算tfidf值,但我得到的结果与使用scikit-learn实现时得到的结果不同。来自sklearn.feature_extraction.text ...

回答 1 投票 1

从两个元组列表中取两个值并乘以

我正在计算元组列表的TD IDF。我已经计算了TF值,它存储在一个元组列表中,我已经计算了IDF值,它也存储在一个元组列表中。为......

回答 4 投票 2

从元组的两个列表(随机顺序)中取两个值并乘以

我有两个列表,它们是元组列表。例如List1 = [('zaidan',0.0013568521031207597),('zimmerman',0.0013568521031207597),('ypa',0.004070556309362279)] List2 = [('zimmerman',0 ....

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.