word2vec 相关问题

该工具提供了用于计算单词的矢量表示的连续词袋和跳过 - 克结构的有效实现。这些表示随后可用于许多自然语言处理应用程序和进一步研究。

gensim是如何做到如此快速地找到最相似的单词的?

比方说,我们训练一个有超过100万个单词的模型。为了找到最相似的词,我们需要计算测试词的嵌入和所有1 ... 的嵌入之间的距离。

回答 1 投票 0

word2vec:以不区分大小写的方式找到相似的词。

我可以获得我感兴趣的文本语料库上的单词向量。现在,我面临的问题是,这些向量是大小写敏感的,例如 "Him "和 "him "不同,"... "也不同。

回答 2 投票 3

将训练好的 gensim word2vec 模型保存为 tensorflow SavedModel。

我们是否有一个选项可以使用 tf 2.0 tf.saved_model.save 将训练好的 Gensim Word2Vec 模型保存为保存的模型?换句话说,我如何将一个训练好的嵌入向量保存为保存的模型签名,以 ...

回答 1 投票 0

是否有可能比较两个词嵌入库的相似度分数?

在我的研究中,我正在探索一组媒体与另一组媒体相比是否存在统计学意义上的意识形态偏差。我希望使用词嵌入的方法来探索这个问题。让...

回答 1 投票 0

为什么每次用预训练的嵌入词向量和固定词元组运行后,我的相似度值都会改变?

我想做什么。我想从word2vec中得到很多单词元组的相似度值。Tuple_list_example = [('guard', 'pro suffrage'), ('guard', protest), ('guard', 'sea'), ('guard', '...)

回答 1 投票 0

无法导入gensim模块

我使用(pip install gensim)安装了gensim模块,安装成功 成功安装 boto-2.49.0 boto3-1.12.45 botocore-1.15.45 docutils-0.15.2 gensim-3.8.2 jmespath-0.9.5 ....

回答 1 投票 0

从fastText理解wordNgram

我想知道fastText中的-wordNgrams参数是什么。让我们以下面的文本为例。The quick brown fox jumps over the lazy dog Now we have the context...

回答 1 投票 1

KeyError.当从文本文件中读取文本时,"单词'限制'不在词汇中"。从文本文件中读取的文本生成词嵌入向量时,出现 "词'限制'不在词汇中"。

我得到了这个错误: "KeyError: word 'restriction' not in vocabulary", 当我读取一个文本文件来生成单词嵌入向量时,而单词 "restriction "就在文本文件中。我想知道我的...

回答 1 投票 0

并行化对训练word2vec模型没有好处。

我尝试使用gensim库中实现的word2vec进行并行。我注意到,我越是增加线程,训练就越慢,我不知道为什么。有什么需要设置的吗?I ...

回答 1 投票 1

word2vec推荐系统KeyError: "单词'21883'不在词汇中"

代码对于包含500000+实例的数据集工作绝对正常,但每当我将数据集减少到50001000015000时,它就会抛出一个关键错误:单词 "***"不在词汇中。

回答 1 投票 0

如何从TFHub下载的预先训练好的word2vec模型中获取单词向量?

所以我使用了以下来自TFHub的word2vec模型: embed = hub.load("https:/tfhub.devgoogleWiki-words-250-with-normalization2") 这个对象的类型是: tensorflow.python.saved_model.load......

回答 1 投票 0

简单地打印单词向量,而不是以数组的形式获取。

一个非常简单的任务,但我似乎做不到。我想得到这样的向量:the -0.038194 -0.24487 0.72812 -0.39961 0.083172 0.043953 -0.39141 0.3344 -0.57545 0.087459 0.28787 -0.06731 0......。

回答 1 投票 -1

将字数组和向量数组组合以生成Gensim W2V模型

我有一个pickle文件中的单词数组,还有一个npy文件中的对应矢量数组,如何将它们组合起来以生成Gensim W2V模型?] >>

回答 1 投票 0

gensim word2vec词嵌入如何提取1个单词句子的训练单词对?

请参考下图(word2vec跳过图如何从输入句子中提取训练数据集-单词对的过程)。例如。 “我爱你。” ==> [[I,love),(I,you)]请问单词是什么...

回答 1 投票 0

提高DOC2VEC Gensim效率

我正在尝试在带标签的文档上训练Gensim Doc2Vec模型。我大约有4000000个文档。以下是我的代码:将pandas作为pd导入从nltk.corpus导入多处理从...

回答 1 投票 1

损失函数的选择

[这是一个word2vec实现:%reset -f从torch.autograd导入torch。

回答 1 投票 2

未定义名称'doc2vec'

我正在尝试使用doc2vec进行文本分类,但是在导入后,当我试图在一个函数中使用它时,它说doc2vec未定义。请帮助我确定所有库...

回答 2 投票 0

从LDA模型对主题建模进行重新训练或重新分组的结果

我想知道是否有可能通过LDA模型中的输出主题重用单词,然后通过使用LDA模型或单词向量再次将它们重新分组为新的组?有人知道吗,我们...

回答 1 投票 0

Gensim以txt格式保存单词向量错误

我的问题如下。我有一些以txt格式保存的预训练向量,我将它们加载到dict中。但是当我在gensim中再次训练它们后尝试保存它们时,给了我一个错误,例如...

回答 1 投票 0

Gensim v3.6.0 Word2Vec DeprecationWarning:调用不推荐使用的`wv`(属性将在4.0.0中删除,改为使用self)

我正在使用Gensim 3.6.0加载预训练的Word2Vec,并且在调用model.wv时显示以下错误。 /anaconda/envs/python36/lib/python3.6/site-packages/ipykernel_launcher.py:1:...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.