tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

如何对这个词典列表进行排序

def searchSimilarDocumentsByPhrases(语料库,Ids,contractIds,计数,短语=无): tfidf = TfidfVectorizer(词汇=短语,ngram_range=(1、6)) tfs = tfidf.fit_transform(语料库) feature_n...

回答 0 投票 0

通过删除 TfIdfVectorizer 的 LM 模型向量中不存在的词来创建 Ngram

我想聚类 160 000 个文档或可变长度。 问题: Spacy LM 模型“en_core_web_lg”没有我文档中出现的所有单词。 创建 NGrams 还包括

回答 0 投票 0

How to get tfidf with pandas dataframe?

我想根据下面的文档计算 tf-idf。我正在使用 python 和熊猫。 将熊猫导入为 pd df = pd.DataFrame({'docId': [1,2,3], 'sent': ['这是第一句','Th...

回答 4 投票 0

如何使用 TfidfVectorizer 传递我的停用词列表?

我正在尝试将 TfidfVectorizer 函数与我自己的停用词列表一起使用,并使用我自己的分词器函数。目前我正在这样做: def transformation_libelle(句子,**参数): 词干分析器 =

回答 0 投票 0

从 .pickle 获取数据

我有一个多项式 NB() 模型: text_clf_NB = Pipeline([('vect', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clf', MultinomialNB()), ...

回答 1 投票 0

tf-idf模型评估结果的问题

#构建机器学习模型 # 1- 用于二元组和三元组的多项式朴素贝叶斯: mnb_tf_bigram=多项式NB() mnb_tf_bigram.fit(tfidf_train_2, y_train) mnb_tf_trigram=多项式NB() mnb_tf_tri...

回答 0 投票 0

TF-IDF 值与 TfidfVectorizer

我正在学习 NLP,并且有兴趣使用 sklearn 库和类 TfidfVectorizer 来理解 TF-IDF 模型 我在下面粘贴了示例代码。 语料库 = [ '这是第一个

回答 0 投票 0

为什么TF-IDF的值和IDF_不一样?

向量化语料的值为什么和通过idf_属性得到的值不一样? idf_ 属性不应该只返回同一个文件中的逆文档频率(IDF)...

回答 1 投票 0

需要帮助来理解 Pandas TfidfTransformer 背后的计算

举例问题- 数据 - 数据 = [['1', 'af_aa'], ['1', 'af_aa'], ['1', 'af_bb'], ['1', 'af_bb'], ['1', 'af_cc'], ['2', 'af_aa'], ...

回答 0 投票 0

如何获得单词的 TF-IDF 分数?

我有一个很大的语料库(大约 40 万个独特的句子)。我只想获得每个单词的 TF-IDF 分数。我试图通过扫描每个单词并计算频率来计算每个单词的分数......

回答 2 投票 0

TF-IDF,带有用于 python 中的 IDF 的日志基数 2

我是机器学习的新手。我尝试使用 TF-IDF 进行情绪分析。 我使用的公式 TF 是: TF公式 我使用的公式 IDF 是: IDF公式 对于 IDF 公式,我使用带有 lo 的基本公式...

回答 0 投票 0

tfidf w2v给出NaN值。

当使用TFIDF Word2Vec给NaN值的审查亚马逊精细食品数据集后,采样到100k数据点,我得到NaN值的句子向量...... 我几乎尝试了...

回答 1 投票 0

使用python的TF-IDF向量器。

我在python中使用TfidfVectorizer函数时遇到了一个问题。例如,如果我有一个像这样的字符串:'xxx/xx.aaa.bb.ccc.d'将被提取这些词作为字典的键:'xxx','......'。

回答 1 投票 0

为什么ElasticSearch中的 "More Like This "不尊重单个术语的TF-IDF顺序?

我一直在尝试摸索ElasticSearch中的 "More Like This "功能。我读了又读了文档,但我很难理解为什么会出现以下行为。...

回答 1 投票 1

使用sklearn预测新内容的文本群集。

我想了解如何使用sklearn创建文本的聚类。我有800百个文本(600个训练数据和200个测试数据),如下所示。文本#列名称1唐纳德-特朗普,... ...

回答 1 投票 1

使用不同的颜色和标签进行聚类

我正在研究文本聚类。我需要用不同的颜色来绘制数据,我使用了kmeans方法进行聚类,tf-idf进行相似度分析。Kmeans_labels =KMeans(n_clusters=3).fit(...)。

回答 1 投票 0

使用TF-IDF在K-Means中绘制中心点。

我正在用KMeans编码来组文本,一切都很好,但我无法将中心点绘制在一起。我不知道如何使用matplotlib,只知道seaborn连同创建的向量 ...

回答 1 投票 0

删除R中只出现一次且IDF较低的词。

我有一个数据框,里面有一列文字。我想做三个数据预处理步骤。1)删除只出现一次的词 2)删除反文档频率(IDF)低的词......。

回答 1 投票 0

我的模型是否应该总是在训练数据集上给出100%的准确性?

from sklearn.naive_bayes import MultinomialNB # Multinomial Naive Bayes on Lemmatized Text X_train, X_test, y_train, y_test = train_test_split(df['Rejoined_Lemmatize'], df['Product'], random_state = ...)

回答 1 投票 0

Tfidftransformer和Tfidfvectorizer的区别是什么?

我对Tfidftransformer & Tfidfvectorizer的使用有点困惑,因为它们看起来都很相似,一个使用文字转换矩阵(Tfidfvectorizer),另一个使用已经转换好的文本(使用 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.