doc2vec 相关问题

Doc2Vec是一种无监督算法,用于转换向量中的文档(“密集嵌入”)。它基于“Paragraph Vector”论文,并在Gensim Python库和其他地方实现。该算法可以在“Distributed Bag Of Words”模式下工作(PV-DBOW,其工作方式与Word2Vec中的skip-gram模式类似)或“分布式存储器”模式(PV-DM,更类似于CBOW模式)在Word2Vec。)

为什么Gensim Doc2vec对象返回空doctag?

我的问题是我应该如何解释我的情况?我按照本教程https://blog.griddynamics.com/customer2vec-representation-learning-and-automl-for-customer -...

回答 1 投票 1

无法使用gensim加载Doc2vec对象

我正在尝试使用gensim加载预先训练的Doc2vec模型,并使用它将段落映射到向量。我指的是https://github.com/jhlau/doc2vec,我下载的预训练模型是...

回答 1 投票 1

ImportError:无法从'sklearn.externals'导入名称'joblib'

我正在尝试使用joblib import pandas从s3加载我保存的模型,作为pd import numpy作为np import json import subprocess import sqlalchemy from sklearn.externals import joblib ENV ='dev'...

回答 2 投票 0

使用python在s3中自动生成文件名的最佳方法

我有一个python脚本,其中,我正在构建doc2vec模型并将其保存到具有不同版本名称的s3中。请参阅屏幕快照以供参考。现在我的数据库中的数据每周都会更新...

回答 1 投票 0

尝试检查同一文档的余弦相似度时得到小于1的分数

我已经使用doc2vec在多个文档中找到相似之处,但是当我检查创建模型的同一文档时,分数应该为'1'对吗?作为使用过的文档,并将成为...

回答 1 投票 0

在Google Colab上保存gensim doc2vec训练的模型

我正在使用gensim doc2vec模型在Google colab存储库GPU运行时上训练文本数据,并希望将经过训练的模型保存在test.d2v文件中。以下是代码段T = [...的TaggedDocument(doc,[i]]]]

回答 1 投票 0

word2vec,使用文档正文或关键字作为训练语料库

我想使用每个文档的关键字和类别的无序列表来训练word2vec模型。因此,我的词汇量大约为2.5k令牌。会不会表现...

回答 2 投票 0

如何提取与示例句子列表相比具有相似含义/意图的句子

我在客户和顾问之间进行了聊天互动[对话],想知道顾问互动是否包含以下列表中的特定句子或类似句子:示例...

回答 1 投票 1

[加载Doc2Vec,而没有用于infer_vector的docs矢量

我有一个很大的gensim Doc2vec模型,当我从其他来源加载训练文档向量时,我只需要推断向量。没有我做的大npy文件,是否可以按原样加载它?

回答 1 投票 0

Gensim:加载doc2vec模型时出错?

我经过训练后将我的Doc2Vec模型存储到磁盘中,然后当我尝试从磁盘中加载模型时,它显示了gensim.models.doc2vec从gensim.test.utils导入Doc2Vec时出现的一些错误...

回答 1 投票 0

我想从python中的两个嵌入式文档中获得语义相似的单词的列表

我正在使用python嵌入文本。我在哪里发现两个文档与Doc2vec模型之间的相似性。代码如下:对于range(len(train_corpus))中的doc_id:...

回答 1 投票 1

使用Doc2Vec训练文档时句子中句点的重要性

问题-1我正在用150000个文档训练Doc2Vec。由于这些文件来自法律领域,因此确实很难清理并将其准备好进行进一步的培训。因此,我决定删除所有...

回答 1 投票 0

文档分类:预处理和多个标签

我对单词表示算法有疑问:word2Vec,doc2Vec和Tf-IDF中哪一种算法更适合于处理文本分类任务?我的......>

回答 1 投票 1

Doc2Vec无监督培训

我需要在Doc2Vec的无监督培训中为我提供的2个选择的建议。场景是我有N个文档,每个文档的大小都超过3000个令牌。因此,现在用于训练的替代方法是...

回答 1 投票 0

doc2vec的调整大小参数

我有一个120万个单句描述(5至50个单词)的数据集,我想将它们聚类为n个聚类。对于向量转换,我想使用doc2vec来获得120万等长向量。但是,...

回答 1 投票 0

除了Doc2Vec嵌入中还有哪些其他功能可用于文档相似性?

所以我正在做一个关于文档相似性的项目,现在我的功能仅仅是Doc2Vec的嵌入。由于未显示出任何好的结果,因此在超参数优化和单词...

回答 1 投票 0

Gengram doc2vec对ngram的训练

我有几千个文档要在gensim doc2vec模型中使用,但是每个文档只有5克,而全文本没有它们的原始单词顺序。在doc2vec中...

回答 1 投票 1

是否可以更新Doc2Vec向量?

我正在与一个稳步增长的语料库一起工作。我使用在Python中实现的Doc2Vec训练我的文档向量。是否可以更新文档向量?我想使用文档向量...

回答 1 投票 0

Gensim的Doc2Vec-如何使用经过预训练的word2vec(单词相似性)

我没有大量的数据集来训练单词相似性,例如“热”比“冷”更类似于“温暖”。但是,我希望在相对较小的语料库〜100个文档上训练doc2vec,以便它可以...

回答 1 投票 0

使用tf-idf,word2vec或bert进行情感分析是否更好?

[现在,我正在尝试进行情感分析数据帧,看起来像这样,我很高兴1,我很悲伤2,在这种情况下,我使用doc2vec来表示每个标签,但是对于...来说是bert工作的...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.