tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

ExactStatsCache不适用于分布式IDF

我在SolrCloud(7.7.1)中使用ExactStatsCache,为所有集合添加了solrconfig.xml文件。 一世 ...

回答 1 投票 0

如何从一列数据框计算tfidf分数并提取具有最小分数阈值的单词

我已经采用了一列数据集,其中每行都有文本形式的描述。我试图找到tf-idf大于某个值n的单词。但代码给出了分数矩阵我如何排序...

回答 1 投票 1

使用自定义词汇表进行TfidfVectorizer scikit-learn的问题

我正试图在scikit中使用自定义词汇 - 学习一些聚类任务,我得到了非常奇怪的结果。不使用自定义词汇表时程序运行正常,我对...感到满意

回答 3 投票 3

在NLP中使用tf-idf如何在python中查找语料库(包含大量文档)中特定单词的频率

如何使用Tf-idf从语料库中找到单个单词的频率。下面是我的示例代码,现在我想打印一个单词的频率。我怎样才能做到这一点?来自sklearn ....

回答 1 投票 1

如何执行k意味着从Gensim TF IDF值进行聚类

我正在使用Gensim进行矢量空间模型。在从Gensim创建字典和语料库后,我使用以下行计算了(Term frequency * Inverse document Frequency)TFIDF:Term_IDF = ...

回答 2 投票 1

TfidfVectorizer如何计算测试数据的分数

在scikit-learn中,TfidfVectorizer允许我们适应训练数据,然后使用相同的矢量化器来转换我们的测试数据。列车数据转换的输出是一个矩阵......

回答 1 投票 3

有没有办法删除文本中不在其他文本中的所有单词?

我有一份包含很多评论的文件。我正在使用TfidfVectorizer创建一个词袋BW。我想要做的是:我只想在BW中使用其他文档D中的单词。文档D是......

回答 1 投票 -1

向量空间模型 - 计算查询向量[0,0.707,0.707]

我正在阅读“信息检索简介”(Christopher Manning)这本书,当我引入查询“嫉妒的八卦”时,我被困在第6章,它表示该向量...

回答 1 投票 -1

unigrams和bigrams(tf-idf)不如unigrams(ff-idf)准确吗?

这是一个关于ngrams线性回归的问题,使用Tf-IDF(术语频率 - 逆文档频率)。为此,我使用numpy稀疏矩阵和sklearn进行线性回归。一世 ...

回答 2 投票 3

getTermFreqVector() - NullPointerException

我试图使用以下代码获取一组文档的tf:IndexReader r = IndexReader.open(FSDirectory.open(new File(“index”))); TermFreqVector tfv = r.getTermFreqVector(root [i],“...

回答 2 投票 0

scikit-learn中的TfidfVectorizer:ValueError:np.nan是一个无效的文档

我正在使用scikit中的TfidfVectorizer学习从文本数据中提取一些特征。我有一个带有分数的CSV文件(可以是+1或-1)和一个评论(文本)。我将这些数据导入DataFrame,所以我......

回答 2 投票 31

RegEx词汇表不适用于sklearn TfidfVectorizer

我正在尝试计算语料库中所选单词的tf-idf,但是当我对所选单词使用正则表达式时它不起作用。下面是我从stackoverflow中的另一个问题复制的例子,并且...

回答 1 投票 0

训练模型失败,因为'list'对象没有属性'lower'

我正在通过推文训练分类器以进行情绪分析。代码如下:df = pd.read_csv('Trainded Dataset Sentiment.csv',error_bad_lines = False)df.head(5)#TWEET X = df [...

回答 2 投票 2

MXNet - 稀疏矩阵的点积

我正在使用MXNet构建内容推荐模型。尽管行数约为10K,但MXNet中的CPU和GPU上下文会引发内存不足问题。目前的代码如下。 ```......

回答 1 投票 0

通过使用tf-idf将文本特征化为向量来计算余弦相似度

我是Apache Spark的新手,希望从一堆文本中找到类似的文本,尝试自己如下 - 我有2个RDD-第一个RDD包含不完整的文本如下 - [0,541 Suite 204,Redwood City,...

回答 1 投票 2

ValueError:X每个样本有1709个特征;期待2444

我正在使用此代码:将pandas作为pd导入numpy作为np从nltk.tokenize导入word_tokenize import re使用来自sklearn.feature_extraction.text的TFIDF向量化导入TfidfVectorizer ...

回答 1 投票 0

使用TfidfVectorizer进行n-gram矢量化

我正在使用带有以下参数的TfidfVectorizer:smooth_idf = False,sublinear_tf = False,norm = None,analyzer ='word',ngram_range =(1,2)我正在向下文字进行矢量化:“红太阳,粉红色糖果......

回答 1 投票 1

sklearn TfidfVectorizer:通过不删除其中的禁用词来生成自定义NGrams

以下是我的代码:sklearn_tfidf = TfidfVectorizer(ngram_range =(3,3),stop_words = stopwordslist,norm ='l2',min_df = 0,use_idf = True,smooth_idf = False,sublinear_tf = True)sklearn_representation = ...

回答 1 投票 2

将新文本添加到Sklearn TFIDIF Vectorizer(Python)

是否有添加到现有语料库的功能?我已经生成了我的矩阵,我希望定期添加到表中而不需要重新处理整个sha-bang例如; articleList = ['这里是......

回答 1 投票 10

加权单词嵌入是什么意思?

在我试图实现的论文中,它说,在这项工作中,推文使用三种类型的文本表示建模。第一个是由tf-idf加权的词袋模型(术语...

回答 2 投票 7

© www.soinside.com 2019 - 2024. All rights reserved.