tf-idf 相关问题

“术语频率⨉逆文档频率”或“tf-idf”测量单词对集合或语料库中文档的重要程度。

def searchSimilarDocumentsByPhrases（语料库，Ids，contractIds，计数，短语=无）： tfidf = TfidfVectorizer（词汇=短语，ngram_range=（1、6）） tfs = tfidf.fit_transform(语料库) feature_n...

python python-3.x tf-idf

回答 0 投票 0

通过删除 TfIdfVectorizer 的 LM 模型向量中不存在的词来创建 Ngram

我想聚类 160 000 个文档或可变长度。问题： Spacy LM 模型“en_core_web_lg”没有我文档中出现的所有单词。创建 NGrams 还包括

scikit-learn cluster-computing text-classification tf-idf tfidfvectorizer

回答 0 投票 0

How to get tfidf with pandas dataframe?

我想根据下面的文档计算 tf-idf。我正在使用 python 和熊猫。将熊猫导入为 pd df = pd.DataFrame({'docId': [1,2,3], 'sent': ['这是第一句','Th...

python pandas scikit-learn tf-idf gensim

回答 4 投票 0

如何使用 TfidfVectorizer 传递我的停用词列表？

我正在尝试将 TfidfVectorizer 函数与我自己的停用词列表一起使用，并使用我自己的分词器函数。目前我正在这样做： def transformation_libelle（句子，**参数）：词干分析器 =

python scikit-learn tf-idf stop-words

回答 0 投票 0

从 .pickle 获取数据

我有一个多项式 NB() 模型： text_clf_NB = Pipeline([('vect', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clf', MultinomialNB()), ...

python model pickle text-classification tf-idf

回答 1 投票 0

tf-idf模型评估结果的问题

#构建机器学习模型 # 1- 用于二元组和三元组的多项式朴素贝叶斯： mnb_tf_bigram=多项式NB() mnb_tf_bigram.fit(tfidf_train_2, y_train) mnb_tf_trigram=多项式NB() mnb_tf_tri...

evaluation tf-idf

回答 0 投票 0

TF-IDF 值与 TfidfVectorizer

我正在学习 NLP，并且有兴趣使用 sklearn 库和类 TfidfVectorizer 来理解 TF-IDF 模型我在下面粘贴了示例代码。语料库 = [ '这是第一个

scikit-learn nlp tf-idf tfidfvectorizer

回答 0 投票 0

为什么TF-IDF的值和IDF_不一样？

向量化语料的值为什么和通过idf_属性得到的值不一样？ idf_ 属性不应该只返回同一个文件中的逆文档频率（IDF）...

python scikit-learn tf-idf tfidfvectorizer

回答 1 投票 0

需要帮助来理解 Pandas TfidfTransformer 背后的计算

举例问题- 数据 - 数据 = [['1', 'af_aa'], ['1', 'af_aa'], ['1', 'af_bb'], ['1', 'af_bb'], ['1', 'af_cc'], ['2', 'af_aa'], ...

pandas tf-idf

回答 0 投票 0

如何获得单词的 TF-IDF 分数？

我有一个很大的语料库（大约 40 万个独特的句子）。我只想获得每个单词的 TF-IDF 分数。我试图通过扫描每个单词并计算频率来计算每个单词的分数......

python nlp tf-idf tfidfvectorizer

回答 2 投票 0

TF-IDF，带有用于 python 中的 IDF 的日志基数 2

我是机器学习的新手。我尝试使用 TF-IDF 进行情绪分析。我使用的公式 TF 是： TF公式我使用的公式 IDF 是： IDF公式对于 IDF 公式，我使用带有 lo 的基本公式...

python machine-learning tf-idf tfidfvectorizer

回答 0 投票 0

tfidf w2v给出NaN值。

当使用TFIDF Word2Vec给NaN值的审查亚马逊精细食品数据集后，采样到100k数据点，我得到NaN值的句子向量...... 我几乎尝试了...

python word2vec tf-idf

回答 1 投票 0

使用python的TF-IDF向量器。

我在python中使用TfidfVectorizer函数时遇到了一个问题。例如，如果我有一个像这样的字符串：'xxx/xx.aaa.bb.ccc.d'将被提取这些词作为字典的键：'xxx'，'......'。

python vectorization tf-idf tfidfvectorizer

回答 1 投票 0

为什么ElasticSearch中的 "More Like This "不尊重单个术语的TF-IDF顺序？

我一直在尝试摸索ElasticSearch中的 "More Like This "功能。我读了又读了文档，但我很难理解为什么会出现以下行为。...

elasticsearch lucene tf-idf morelikethis

回答 1 投票 1

使用sklearn预测新内容的文本群集。

我想了解如何使用sklearn创建文本的聚类。我有800百个文本（600个训练数据和200个测试数据），如下所示。文本＃列名称1唐纳德-特朗普，... ...

python scikit-learn text-classification tf-idf tfidfvectorizer

回答 1 投票 1

使用不同的颜色和标签进行聚类

我正在研究文本聚类。我需要用不同的颜色来绘制数据，我使用了kmeans方法进行聚类，tf-idf进行相似度分析。Kmeans_labels =KMeans(n_clusters=3).fit(...)。

python matplotlib cluster-analysis k-means tf-idf

回答 1 投票 0

使用TF-IDF在K-Means中绘制中心点。

我正在用KMeans编码来组文本，一切都很好，但我无法将中心点绘制在一起。我不知道如何使用matplotlib，只知道seaborn连同创建的向量 ...

python matplotlib seaborn k-means tf-idf

回答 1 投票 0

删除R中只出现一次且IDF较低的词。

我有一个数据框，里面有一列文字。我想做三个数据预处理步骤。1)删除只出现一次的词 2)删除反文档频率(IDF)低的词......。

r nlp data-cleaning tf-idf word-frequency

回答 1 投票 0

我的模型是否应该总是在训练数据集上给出100%的准确性？

from sklearn.naive_bayes import MultinomialNB # Multinomial Naive Bayes on Lemmatized Text X_train, X_test, y_train, y_test = train_test_split(df['Rejoined_Lemmatize'], df['Product'], random_state = ...)

python machine-learning scikit-learn tf-idf naivebayes

回答 1 投票 0

Tfidftransformer和Tfidfvectorizer的区别是什么？

我对Tfidftransformer & Tfidfvectorizer的使用有点困惑，因为它们看起来都很相似，一个使用文字转换矩阵(Tfidfvectorizer)，另一个使用已经转换好的文本(使用 ...

python pandas scikit-learn tf-idf tfidfvectorizer

回答 1 投票 0

tf-idf 相关问题

最新问题