gensim 相关问题

Gensim是一个免费的Python框架,旨在自动从文档中提取语义主题,尽可能高效(计算机方面)和无痛(人性化)。

使用预定的主题分布初始化Gensim LDA模型

我们可以在确定新文档的主题时,使gensim lda模型使用预定主题分布吗?例如:import gensim texts = [['a','a','a'],['b','b','b'],['c','c','c']] d = gensim.corpora ....

回答 1 投票 0

如何选择以k均值表示最大频率的聚类

我从Gensim word2vec创建了一个k均值聚类,其中k的值为3。现在我想检索该聚类以及频率最高的值。从gensim.models导入gensim ...

回答 1 投票 0

了解Gensim Word2Vec 3个单词的most_like结果

我以不同的方式使用3个单词“ 1”,“ 2”,“ 3”构造句子,并观察到这些单词中每个单词的单词向量均未改变。以下是不同的句子类型1:[[“”“,” 2“ ...

回答 1 投票 0

了解doc2vec gensim的参数model.infer_vector

这是否意味着我必须为输入的doc_words提供文档的标记化单词作为字符串列表,或者仅仅是文档作为字符串列表。请说明

回答 1 投票 0

FastTextKeyedVectors向量,vectors_vocab和vectors_ngrams实例变量之间的差异

我下载了wiki-news-300d-1M-subword.bin.zip并按如下方式加载:import gensim print(gensim .__ version__)model = gensim.models.fasttext.load_facebook_model('./ wiki-news-300d- 1M-subword.bin')...

回答 1 投票 0

存储处理过的文本数据以流式传输到gensim的最佳方法?

我有几百个熊猫数据帧,每个数据帧都有一列很长的字符串,在使用word2vec建模之前,需要对其进行处理/识别,最后进行标记化。我可以存储...

回答 1 投票 0

无法在Flask应用程序中加载文件

我们有一个flask应用程序,我们需要使用gensim加载位于路径'/root/apps/mlapi/resources/emoji2vec.bin'上的预训练模型。运行代码时,出现以下错误文件“ ...

回答 1 投票 0

使用Doc2Vec的情感分类

我对如何将Doc2Vec(使用Gensim)用于IMDB情感分类数据集感到困惑。经过对语料库的训练后,我得到了Doc2Vec嵌入,并建立了Logistic回归模型...

回答 2 投票 0

看不见的单词的Gensim Doc2Vec infer_vector取决于这些单词中的字符

Gensim Doc2Vec infer_vector对带有看不见单词的段落会生成矢量,这些矢量会根据未读单词中的字符而有所不同。对于范围(0,2)中的i:print(model.infer_vector([“ zz”])[0:2])...

回答 1 投票 0

如何对数百万个文档执行doc2vec.infer_vector()?

我使用python gensim在40,000,000个文档的语料库上训练了一个doc2vec模型。该模型用于每天在数百万个文档上推断docvec。为了确保稳定性,我将alpha设置为较小的...

回答 1 投票 0

使用预训练的gensim Word2vec嵌入以及在keras中设置的数据

亲爱的,我已经使用Wikipedia数据在gensim中训练了word2vec,并使用以下程序进行了保存。型号= Word2Vec(LineSentence(inp),size = 300,window = 5,min_count = 5,max_final_vocab = 500000,...

回答 1 投票 1

gensim lemmatize错误生成器引发StopIteration

我正在尝试执行简单的代码来对字符串进行lemmatize,但是关于迭代存在错误。我找到了一些有关重新安装web.py的解决方案,但这对我不起作用。 python代码...

回答 1 投票 0

Word2Vec-如何摆脱“ TypeError:不可哈希类型:'list'”和“ AttributeError:dlsym(0x7fa8c57be020,AttachDebuggerTracing):未找到符号”?

[获取TypeError:无法散列的类型:'列表'和AttributeError:dlsym(0x7fa8c57be020,AttachDebuggerTracing):当我基于...的Word2Vec实现创建模型时,找不到符号错误]

回答 1 投票 0

Gensim Word2Vec或FastText从频率构建vocab

我不知道gensim中的.build_vocab_from_freq()函数实际上是做什么的?不使用时有什么区别?谢谢!

回答 1 投票 0

使用双字母,专有名词和复数来改善spacy lemmatization?

[在python中,我正在用gensim构建ngram,并将单词传递给spacy以进行词素化。我发现spacy的效果不是很好,因为它会将许多单词保留为不应该的复数形式。 ...

回答 1 投票 0

将Wikipedia XML文件加载到Gensim中

我是NLP的一个完整的新手,并希望加载匈牙利维基百科语料库的压缩XLM文件(807 MB)。我下载了转储文件,并开始使用Gensim在Python中对其进行解析,但是4 ...

回答 1 投票 0

gensim.models.FatText.wv.wmdistance如何计算两个文档之间的距离?

我已经有了使用gensim的fastText的训练模型,并且我可以得到两个句子之间的距离,如下所述,句子_1 =“今天很冷。”句子_2 =“我想要点东西...

回答 1 投票 0

从邮件中获取关键字

我的目标是文本摘要,不确定我是否做得正确,但这是计划。我有一个名为train_data的数据框。每行中的每个单元格都包含消息。现在,我正在寻找...

回答 1 投票 0

使用gensim从快速文本库中高效地存储预训练单词嵌入的内存

我想用gensim从快速文本库中加载经过预训练的多语言单词嵌入;这里是嵌入链接:https://fasttext.cc/docs/en/crawl-vectors.html特别是,我...

回答 1 投票 0

如何结合POS标签特征和相关的词向量,以从预训练的gensim word2vec中获取词,并用于在keras的嵌入层中使用

我已经在gensim中预先训练了word2vec。在keras中,我想使用Word向量从预先训练的word2vec中获取词,再结合我在一个热向量中编码的该词的POS标签功能。在...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.