word2vec 相关问题

该工具提供了用于计算单词的矢量表示的连续词袋和跳过 - 克结构的有效实现。这些表示随后可用于许多自然语言处理应用程序和进一步研究。

是否可以对像 vec2word 这样的预训练词嵌入模型进行微调?

我正在我的搜索引擎系统中进行语义匹配。我看到词嵌入可以用于此任务。然而,我的数据集非常有限而且很小,所以我不认为训练一个单词

回答 1 投票 0

word2vec 无法使用 gensim 库工作

我正在尝试使用 gensim 提供的 word2vec 模型对我的数据集进行矢量化。我面临着 scipy 提出的错误。 从 gensim.models 导入 Word2Vec 从 nltk.tokenize 导入 word_tokenize 导入...

回答 1 投票 0

使用word2vec对类别中的单词进行分类

背景 我有带有一些样本数据的向量,每个向量都有一个类别名称(地点、颜色、名称)。 ['约翰','杰伊','丹','内森','鲍勃'] -> '名字' ['黄色', '红色', '绿色'] -> '科罗拉多州...

回答 3 投票 0

Word2Vec Hierarchical Softmax 中的内部顶点里面有什么?

我有一个关于分层 Softmax 的问题。实际上,我不太明白内部顶点(不是叶顶点)中存储的内容。我清楚地理解了这个算法的主要思想...

回答 1 投票 0

如何使用gensim使用deepset的词嵌入预训练模型?

我试图理解 word2vec,并决定尝试一下德语 word2vec 模型。然后我找到了 deepset 的关于他们预训练模型的页面,但我不明白如何使用......

回答 4 投票 0

余弦相似度的输出不符合预期

我正在尝试生成句子中两个单词之间的余弦相似度。这句话是“黑猫坐在沙发上,棕色狗睡在地毯上”。 我的Python代码如下...

回答 1 投票 0

如何在word2vec(使用tensorflow)中处理复合名词(动物名)?

有人对如何使用包含复合名词和非复合名词的语料库使用w2v(使用tensorflow而不是gensim)有任何建议吗?特别是关于动物名称(英语...

回答 1 投票 0

Word2vec 中不存在该键

我在使用预训练模型时遇到了一些问题:w2v_512.model。 错误是“密钥‘xxx’不存在” 我认为这可能是“xxx”这个词无法转换为嵌入...

回答 1 投票 0

与 Gensim 相比,pyTorch 的训练时间非常长

我使用 Brown 语料库和 gensim 训练了一个 word2vec 模型,如下所示: 模型 = gensim.models.Word2Vec(brown.sents(),min_count = 5, 矢量大小 = 30,窗口 = 5,

回答 1 投票 0

Tensorflow 嵌入 InvalidArgumentError:索引 [18,16] = 11905 不在 [0, 11905) [[nodeequential_1/embedding_1/embedding_lookup

我正在使用 TF 2.2.0 并尝试创建 Word2Vec CNN 文本分类模型。但无论我如何尝试,模型或嵌入层始终存在问题。我找不到明确的解决方案...

回答 2 投票 0

“‘Word2Vec’对象没有属性‘load_parent_word2vec_format’”错误

我正在尝试运行使用 python 2.7 的旧代码,由于它在 Word2Vec 的慢速版本上运行,我想将其更新到 Python3,当我这样做时,我收到了此错误: “Word2Vec”对象没有

回答 1 投票 0

在word2vec模型中测试时如何嵌入词汇?

我正在用 100 000 个词汇量训练我的 word2vec 模型(skip-gram)。但是在测试时,我得到了一些不在词汇表中的单词。为了找到它们的嵌入,我尝试了两种方法: 计算...

回答 1 投票 0

无法加载glove.6B.300d.txt

我正在尝试使用以下代码加载手套向量 en_model = gensim.models.KeyedVectors.load_word2vec_format(model_path,binary=False) 我意外地收到以下错误。 文件“...

回答 2 投票 0

Spacy 使用什么来创建矢量表示?

Spacy 创建矢量表示的内置方法是什么? 我对我的语料库进行了 NLP,然后使用 .similarity(余弦相似度)来绘制出“相似”的文档。不过,我是

回答 2 投票 0

TypeError:“Word2Vec”对象不可下标

我正在尝试构建 Word2vec 模型,但是当我尝试重塑标记向量时,出现此错误。任何想法 ? wordvec_arrays = np.zeros((len(tokenized_tweet), 100)) 对于我在范围内(len(

回答 4 投票 0

加载.tar格式的word2vec模型

我想将之前训练好的word2vec模型加载到gensim中。问题在于文件格式。它不是 .bin 文件格式,而是 .tar 文件。它是模型/文件 deu-ch_web-public_2019_1M.tar.g...

回答 1 投票 0

如何为 DL4J 导出带有 Ngram 权重的 Gensim Word2Vec 模型?

我对 nlp 很陌生。我正在尝试使用 dl4j 中的 gensim 训练的模型。我正在保存模型 w2v_model.wv.save_word2vec_format(“路径/到/w2v_model.bin”,二进制= True) 然后……

回答 1 投票 0

Word2Vec 计算电影与高预演电影的相似度

我有一个数据集,其中包含电影的用户评分和电影描述,如下所示 将 pandas 导入为 pd df =pd.DataFrame({ '描述': [ “两个被监禁的男子多年来一直保持着联系”...

回答 1 投票 0

如何根据输入的问题内容查询相似度高的问题?

我有一个Java学生考试系统。 mysql数据库中有超过一百万个问题。题目内容由中文、英文、乳胶数学公式组成。 现在,我想要...

回答 1 投票 0

model.resize_token_embeddings()函数如何重构tokenizer中新添加的token的嵌入?

我是自然语言处理的新手,目前正在使用 Hugging Face 的 ALMA-7B 模型进行机器翻译。我想根据我的

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.