doc2vec 相关问题

Doc2Vec是一种无监督算法,用于转换向量中的文档(“密集嵌入”)。它基于“Paragraph Vector”论文,并在Gensim Python库和其他地方实现。该算法可以在“Distributed Bag Of Words”模式下工作(PV-DBOW,其工作方式与Word2Vec中的skip-gram模式类似)或“分布式存储器”模式(PV-DM,更类似于CBOW模式)在Word2Vec。)

为kmeans模型更改聚类标签

我已经从Doc2Vec模型中将Kmeans模型应用于文档嵌入,以对嵌入进行聚类,并获得可视化效果以及每个聚类中最常用的术语。我已经能够做到这一点...

回答 2 投票 0

在基于gensim文件的培训中表示包含多个句子的文档的正确方法

这些算法实现对实际句子没有任何真正的了解或依赖。他们只接受文本-单词标记。

回答 1 投票 0

如何使用具有大量文本文档的Gensim / Word2Vec / Doc2Vec进行监督学习?

我有一组带有标签(喜欢/不喜欢)的文本文档(2000多个)。每个文档包含200多个单词。我正在尝试对这些文档进行有监督的学习。我的方法是:向量化...

回答 1 投票 0

TypeError:'

为什么抛出此错误的任何想法“ TypeError:'

回答 1 投票 0

了解doc2vec gensim的参数model.infer_vector

这是否意味着我必须为输入的doc_words提供文档的标记化单词作为字符串列表,或者仅仅是文档作为字符串列表。请说明

回答 1 投票 0

使用Doc2Vec的情感分类

我对如何将Doc2Vec(使用Gensim)用于IMDB情感分类数据集感到困惑。经过对语料库的训练后,我得到了Doc2Vec嵌入,并建立了Logistic回归模型...

回答 2 投票 0

看不见的单词的Gensim Doc2Vec infer_vector取决于这些单词中的字符

Gensim Doc2Vec infer_vector对带有看不见单词的段落会生成矢量,这些矢量会根据未读单词中的字符而有所不同。对于范围(0,2)中的i:print(model.infer_vector([“ zz”])[0:2])...

回答 1 投票 0

如何对数百万个文档执行doc2vec.infer_vector()?

我使用python gensim在40,000,000个文档的语料库上训练了一个doc2vec模型。该模型用于每天在数百万个文档上推断docvec。为了确保稳定性,我将alpha设置为较小的...

回答 1 投票 0

Doc2Vec相似性小语料库测试

对于很小的语料库,对于doc2vec doc相似性的简单测试,我无法得到任何合理的答复。相同的文档或使用某些独特的词绝不会返回自身或任何接近的内容。那里...

回答 1 投票 0


Doc2Vec infer_vector无法按预期工作

该程序应该返回列表中最相似的第二个文本,因为它是相同的单词。但是这里不是这样。从nltk.tokenize导入gensim。从gensim导入word_tokenize。...

回答 1 投票 1

Doc2vec:如何在Doc2Vec gensim模型中手动修改训练的向量?

我想用另一个具有不同权重的模型替换由Doc2vec模型创建的特定Doc2Vec向量。这些是“旧”向量的权重(仅是800个实际权重中的一部分):...

回答 1 投票 1

如何在3000-4000字的大型文档中进行语言表示以进行基于查询的检索?

我正在尝试进行语义搜索,以从非结构化法语文档的数据集中检索相似的文档。这些文档未分类,并且是包含300-3000个单词的模板...

回答 1 投票 0

doc2vec的alpha和min_alpha默认值

有人可以告诉我Doc2Vec()中的alpha和min_alpha使用了哪些默认值吗?这些超参数的实际范围是多少?预先谢谢!

回答 1 投票 0

使用doc2vec和gensim的文本分类模型

我正在使用gensim和doc2vec进行文本分类。我正在使用两个数据集对此进行测试,一个是堆栈交换数据集和Reddit数据集。我正在尝试对帖子之间进行分类...

回答 1 投票 0

Doc2Vec找到相似的句子

[嗨,我正在尝试使用doc2vec查找相似的句子。我找不到的是与受训句子匹配的实际句子。下面是来自gensim.models.doc2vec的链接中的代码...

回答 2 投票 1

我得到比我的文档大小的详细矢量 - gensim doc2vec

我有蛋白质序列,并希望做doc2vec。我的目标是为每个句子/序列的一个载体。我有1612句/序列和30类,这样的标签是不是唯一的,许多文件...

回答 1 投票 0

使用文档矢量建立词汇

我不能够建立词汇和得到一个错误:类型错误:“诠释”对象不是可迭代这里是我的代码是基于媒体的文章:HTTPS://towardsdatascience.com/implementing-multi -...

回答 1 投票 0

有没有办法找到N个最遥远的向量数组?

我有成千上万doc2vec载体90种尺寸的阵列。我现在的目的,我想找到一种方法来“样本”这个向量空间的不同区域,得到的感...

回答 1 投票 0

如何加载预先训练doc2vec模型,并用它的载体

有谁知道我应该使用哪种功能,如果我想在这个网站https://github.com/jhlau/doc2vec使用预先训练doc2vec模式?我知道我们可以使用Keyvectors.load_word2vec_format()...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.