doc2vec 相关问题

Doc2Vec是一种无监督算法,用于转换向量中的文档(“密集嵌入”)。它基于“Paragraph Vector”论文,并在Gensim Python库和其他地方实现。该算法可以在“Distributed Bag Of Words”模式下工作(PV-DBOW,其工作方式与Word2Vec中的skip-gram模式类似)或“分布式存储器”模式(PV-DM,更类似于CBOW模式)在Word2Vec。)

处理doc2vec培训中的其他信息

我想在包含2位信息的项目上培训doc2vec:a)文本(在法律领域)b)关键字和/或从文本中提取的其他法律文本的引用我希望我的模型能够...

回答 1 投票 0

Doc2Vec:获取标签的文字

我已经训练过Doc2Vec模型我正试图获得预测。我使用test_data = word_tokenize(“ФилипМоррисПродактсС.А。”。lower())model = Doc2Vec.load(model_path)v1 = model.infer_vector(test_data)...

回答 1 投票 1

如何在doc2vec模型中使用预训练的word2vec向量?

我正在尝试实现doc2vec,但我不确定如果我有预训练的word2vec向量,模型的输入应该是什么样子。问题是,我不确定如何在理论上使用......

回答 1 投票 0

Doc2Vec:使用model.docvecs.most_similar的奇怪结果

我尝试训练模型以获得句子相似性(在我的情况下,某些组织的名称)我用来训练模型names_tok = [TaggedDocument(words = word_tokenize(name.lower()),tags = [str(i)]).. 。

回答 1 投票 0

使用Doc2Vec的句子列表之间的余弦相似度

我是NLP的新手,但是我试图根据语义相似性将句子列表与Python中的另一个句子列表相匹配。例如,list1 = ['他们吃午饭','身高...

回答 1 投票 1

获取doc向量值的正确方法是什么?

我如何获得特定的doc矢量值?通过标签,像这样:modelValues = model.docvecs ['myDocTag']或者它只能通过索引,如下所示:modelValues = model.docvecs [12](在最后一种情况下,我......

回答 1 投票 0

比较doc和一个单词的向量

所以,我要比较文章的矢量和单个单词的矢量。而且我不知道该怎么做。看起来BERT和Doc2wec可以很好地处理长文本,Word2vec可以使用单个单词。 ...

回答 3 投票 0

如何使用gensim wikicorpus获取带标点符号的维基百科语料库文本?

我试图用标点符号来获取文本,因为在我的doc2vec模型中考虑后者是很重要的。但是,wikicorpus只检索文本。搜索网页后,我发现了这些......

回答 2 投票 2

我可以通过同时推断所有文档来保存我想要推断的每个文档的doc2vec模式的随机状态吗?

有没有办法同时推断多个文档,以使用Gensim Doc2Vec保留模型的随机状态?函数infer_vector定义为infer_vector(doc_words,alpha = None,...

回答 1 投票 0

线性回归载荷模型无法按预期进行预测

我已经训练了一个线性回归模型,sklearn,获得5星评级,这已经足够了。我使用Doc2vec来创建我的向量,并保存了该模型。然后我保存线性回归...

回答 2 投票 0

Gensim doc2vec最相似的给出了不支持的操作数类型错误

当我试图找到与我的样本文档最相似的文档时,我正在使用预先训练的doc2vec模型。它给了我不支持的操作数类型错误。来自gensim.models导入Doc2Vec ...

回答 1 投票 0

Doc2vec超越初学者指导

到目前为止,我一直在以最基本的方式使用doc2vec,但收效甚微。我能找到类似的文件,但经常会得到很多误报。我的主要目标是建立......

回答 1 投票 3

如何输入多个文本列的doc2vec向量?

我有一个数据集,其中有3个不同的相关文本信息列,我想将其转换为doc2vec向量,然后使用神经网络进行分类。我的问题是如何转换......

回答 2 投票 -2

Pyspark如何从word2vec单词嵌入中计算Doc2Vec?

我有一个pyspark数据框,其中包含大约300k个唯一行的语料库,每个行都有一个“doc”,每个文档包含几个文本句子。经过处理后,我有一个200维矢量化表示...

回答 2 投票 5

Doc2Vec和分类 - 结果很差

我有6000个观测数据集;它的样本如下:job_id job_title job_sector 30018141中学助教......

回答 3 投票 2

如何将一对向量馈送到分类器以对类似/不相似进行分类

我试图将文档向量对(Doc2Vec,每个文档300个特征)分类为相似/不相似。我尝试了远程色彩(余弦等)以及文档大小等附加功能但是...

回答 1 投票 -1

构建训练doc2vec嵌入的学习曲线

我正在尝试优化用于训练嵌入的时期数。是否有办法为此过程生成学习曲线。我可以为常规监督创建学习曲线......

回答 1 投票 0

Doc2vec预测 - 我们是否对新段落的单词或段落ID进行平均?

我知道您在训练期间将段落ID视为doc2vec中的新词(DM方法,图中左侧)。训练输出是上下文单词。模型训练完毕后,假设我......

回答 2 投票 1

为什么使用行的第一个标记作为句子向量

在Tomas Mikolov的doc2vec实现中,句子的第一个标记用作句子向量。但我不知道这是否会占用第一个令牌并影响其单词向量。我认为 ...

回答 1 投票 0

如何在doc2vec DBOW中与段落向量共同训练单词向量?

我不明白在DBOW模式下使用gensim的doc2vec(dm = 0),在训练过程中如何使用单词向量。我知道默认情况下它被禁用,dbow_words = 0。但是当......时会发生什么

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.