gensim 相关问题

Gensim是一个免费的Python框架,旨在自动从文档中提取语义主题,尽可能高效(计算机方面)和无痛(人性化)。

Gensim-[Errno 2]没有这样的文件或目录:'model.wv'

我在gensim网站上的简单gensim教程中遇到了一个问题,>>>从gensim.test.utils导入common_texts,get_tmpfile >>>从gensim.models导入Word2Vec ...

回答 1 投票 0

通过gensim相似性模型保存并加载多个分片

我的数据有超过一百万行,在训练gensim相似性模型时,它正在制作多个.sav文件(model.sav,model.sav.0,model.sav.1等。)。问题是加载时,它是...

回答 1 投票 0

total_words必须与corpus_file参数一起提供

我正在用语料库文件训练doc2vec,这非常大。模型= Doc2Vec(dm = 1,vector_size = 200,workers = cores,comment ='d2v_model_unigram_dbow_200_v1.0')model.build_vocab(corpus_file = path)...

回答 1 投票 0

将GloVe向量导入gensim。 UnicodeDecodeError:'utf-8'编解码器无法解码位置0的字节0xe6:无效的继续字节

我使用自己的语料库,使用https://github.com/stanfordnlp/GloVe/blob/master/demo.sh提供的代码制作了GloVe向量。因此,我同时具有.bin文件和.txt文件向量。我正在尝试...

回答 1 投票 0

尝试使用LDA模型在Gensim中获得相似性时出现错误“错误的值太多,无法解包”

我基本上使用的是Anaconda环境python 3.7,gensim 3.8.0。我将数据作为一个数据帧放在测试和训练集中,它们都具有以下结构:X_test和Xtrain ...

回答 1 投票 0

保存doc2vec模型时出现挑剔错误,AttributeError

我没有根据[官方文件]使用回调保存模型:https://radimrehurek.com/gensim/models/callbacks.html AttributeError:无法腌制本地对象'train_model..shf'.. 。

回答 1 投票 0

Lda Mallet返回了非零退出状态1

我正在尝试为LDA Mallet模型编写代码...我在几个月前运行了此程序,它运行良好,但现在不再可用。在同一主题上还有其他帖子,但是解决方案还没有帮助...

回答 1 投票 0

使用gensim的wmd函数进行句子聚类

我有一个句子列表。我想使用WMD(移词器的距离)将句子的相似性聚类。我正在使用gensim的word2vec模型为我的单词创建嵌入。 ...

回答 1 投票 0

用于社交媒体评论的word2vec模型

我想分析社交媒体评论。我打算为此实现word2vec模型。有没有可用的word2vec模型用于社交媒体评论或产品评论?

回答 1 投票 1

doc2vec的alpha和min_alpha默认值

有人可以告诉我Doc2Vec()中的alpha和min_alpha使用了哪些默认值吗?这些超参数的实际范围是多少?预先谢谢!

回答 1 投票 0

FastText .bin文件无法容纳在内存中,即使我有足够的RAM

我正在尝试加载具有.bin文件形式的FastText预训练模型之一。 .bin文件的大小为2.8GB,我有8GB RAM和8GB交换文件。不幸的是,模型开始加载...

回答 1 投票 0

将预训练的嵌入导入到Tensorflow的嵌入特征列中

我有一个TF估算器,在其输入层使用要素列。其中之一是EmbeddingColumn,我已经对其进行了随机初始化(默认行为)。现在我想进行预训练...

回答 1 投票 0

将预训练的嵌入从gensim转移到Tensorflow嵌入特征列

我有一个TF估算器,在其输入层使用要素列。其中之一是EmbeddingColumn,我已经对其进行了随机初始化(默认行为)。现在我想进行预训练...

回答 1 投票 0

[在python 3.7中导入gensim时找不到numpy图像

[当使用gensim utils预处理NLP文本时,库将调用numpy并返回(除其他外)此错误消息。重要:请阅读此建议,以了解如何解决此问题! ...

回答 1 投票 0

Gensim word2vec模型输出1000维ndarray,但ndarray最大维数为32-如何?

我正在尝试使用此1000维维基百科word2vec模型来分析某些文档。通过自省,我发现单词的向量表示是1000维numpy.ndarray,...

回答 1 投票 0

使用Vector从二进制文件加载单词嵌入:无法将字符串转换为float

我正在使用gensim阅读GoogleNews-vectors-negative300.bin文件,并尝试使用Vector将其转换为pytorch格式。但是,将返回ValueError。一种解决方案是将其转换为.txt ...

回答 1 投票 1

加载具有回调失败的Gensim FastText模型

使用Gensim创建FastText模型后,我想加载它,但是遇到看似与回调有关的错误。用于创建模型的代码是TRAIN_EPOCHS = 30 WINDOW = 5 ...

回答 1 投票 0

使用doc2vec和gensim的文本分类模型

我正在使用gensim和doc2vec进行文本分类。我正在使用两个数据集对此进行测试,一个是堆栈交换数据集和Reddit数据集。我正在尝试对帖子之间进行分类...

回答 1 投票 0

Doc2Vec找到相似的句子

[嗨,我正在尝试使用doc2vec查找相似的句子。我找不到的是与受训句子匹配的实际句子。下面是来自gensim.models.doc2vec的链接中的代码...

回答 2 投票 1

Gensim Word2Vec模型通过增加时期数而变得更糟

我正在由约35.000个句子组成的数据集上构建Word2Vec模型,总共约500.000个单词。我基本上是这样建立模型的:def train_w2v_model(df,epochs):w2v_model = ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.