gensim 相关问题

Gensim是一个免费的Python框架,旨在自动从文档中提取语义主题,尽可能高效(计算机方面)和无痛(人性化)。

检查输入时出错:预期embedding_1_input具有形状(50,)但形状为(1,)的数组

[我有一个错误:检查输入时出错:预期embedding_1_input具有形状(50,),但数组的形状为(1,)。当我将输入参数input_length更改为1时,错误变为:...

回答 1 投票 0

通过自定义指标进行句子聚类

我有一个政治主张的数据集,我想按相似性将它们分组。我已经开发了一种相似性函数,该函数使用一些正则表达式的组合进行信息提取,快速文本...

回答 1 投票 0

gensim.corpora.Dictionary是否保存了词频?

gensim.corpora.Dictionary是否保存了词频?从gensim.corpora.Dictionary,可以获取单词的文档频率(即,某个单词出现了多少文档...

回答 5 投票 5

'from gensim import test'无法成功导入

我安装了gensim,Python库。我执行了命令Import gensim,它执行没有任何错误。然后,我尝试使用gensim import test的命令从gensim导入测试,并且...

回答 2 投票 0

如何在gensim模型中找到代币数量

这是使用Gensim的模型代码。i运行它,并返回一个元组。我想知道令牌数量是哪一个?模型= gensim.models.Word2Vec(mylist5,size = 100,sg = 0,window = 5,...

回答 2 投票 0

为大量数据集加快Gensim的Word2vec的速度

我正在尝试使用Gensim在庞大的数据集上构建一个Word2vec(或FastText)模型,该数据集由1000个文件组成,每个文件包含〜210,000个句子,每个句子包含〜1000个单词。 ...

回答 1 投票 0

Gensim框架:保存和存储word2vec键控向量

我正在使用word2vec模型,在存储和读取模型时遇到问题。从gensim.models导入gensim.models.keyedvectors作为w2v导入KeyedVectors word_vectors = w2v.wv word_vectors ....

回答 1 投票 0

在基于gensim文件的培训中表示包含多个句子的文档的正确方法

这些算法实现对实际句子没有任何真正的了解或依赖。他们只接受文本-单词标记。

回答 1 投票 0

如何使用具有大量文本文档的Gensim / Word2Vec / Doc2Vec进行监督学习?

我有一组带有标签(喜欢/不喜欢)的文本文档(2000多个)。每个文档包含200多个单词。我正在尝试对这些文档进行有监督的学习。我的方法是:向量化...

回答 1 投票 0

word2vec句子边界处的窗口大小

我正在使用word2vec(和doc2vec)来获取句子的嵌入,但是我想完全忽略单词顺序。我目前正在使用gensim,但如有必要可以使用其他软件包。例如,我的...

回答 1 投票 0

NLTK,Gensim,Scikit Learn的API调用

我计划将NLTK,Gensim和Scikit Learn用于一些NLP /文本挖掘。但是我将使用这些库来处理我的组织数据。问题是使用这些库时,它们是否进行API调用...

回答 1 投票 1

Gensim Word2vec模型参数调整

我正在研究Word2Vec模型。有什么方法可以获取其参数之一的理想值,即iter。就像我们在K均值(Elbo曲线图)中使用do来获取K值的方式一样。或者是否还有其他...

回答 1 投票 0

Gensim word2vec模型损失在几个时期后变为0

正在尝试建立gensim word2vec模型。语料库包含100万个句子。我使用回调在每个时期后打印丢失。在几个时期之后,损耗变为零。知道为什么损失变为0吗? ...

回答 1 投票 0

基于doc2vec的保存/重用模型进行进一步的预测

[我一直在关注以下使用doc2vec进行文本分类的示例:https://github.com/susanli2016/NLP-with-Python/blob/master/Text%20Classification%20model%20selection.ipynb I ...] >

回答 1 投票 0

使用embedding_vector实现Word2Vec模型时出错

是,gensim的KeyedVectors抽象不提供get()方法。 (您遵循的是什么文档或示例表明确实如此?)

回答 2 投票 0

处理文本时出现字符编码问题

我正在尝试处理大型语料库,但是在preprocess_string()中,它返回如下所示的错误(回溯最近一次调用):文件“ D:/Projects/docs_handler/data_preprocessing.py”,第60行,位于...

回答 1 投票 1

gensim主题建模中的内存不足问题

我想在我非常庞大的语料库上成功运行LDAseq模型。我最终想从中提取100个主题。我在ldaseq模型的步骤中收到“内存不足”错误。这是因为我...

回答 1 投票 1

高效使用带有dask分布式和gensim的多个内核

我有一个无法容纳到内存中的巨大数据框。因此,我可以通过dask(分布式)在Python中访问它。我想使用gensim包基于一个...的条目来训练Word2Vec / Doc2Vec模型...

回答 1 投票 0

仅如何生成二元组/三元组语料库

Gensim是否有一种方法可以严格生成单词列表中的双字母组,三字母组?我可以成功生成单字组,二元组,三元组,但我只想提取二元组,...

回答 1 投票 0

使用预定的主题分布初始化Gensim LDA模型

我们可以在确定新文档的主题时,使gensim lda模型使用预定主题分布吗?例如:import gensim texts = [['a','a','a'],['b','b','b'],['c','c','c']] d = gensim.corpora ....

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.