Spacy 使用什么来创建矢量表示?

问题描述 投票:0回答:2

Spacy 创建矢量表示的内置方法是什么? 我对我的语料库进行了 NLP,然后使用 .similarity(余弦相似度)来绘制出“相似”的文档。但是,我不确定 spacy 使用什么方法来创建矢量表示。据我所知,我认为这可能是带有负采样的 word2vec Skip-gram,但是,我想确定一下!

python nlp gensim word2vec spacy
2个回答
3
投票

Spacy 的默认英语模型使用 GloVe 词嵌入 来计算两个单词之间的相似度。您可以在 SpaCy 文档中找到更多信息。


0
投票

对于 SpaCy 英语模型 3.4.0 及更高版本(

en_core_web_md
en_core_web_lg
),默认词向量是在多个数据集(Wikipedia、OpenSubtitles、WMT Newscrawl、OSCAR 21.09)上预训练的小花向量。包含训练详细信息的存储库是:https://github.com/explosion/spacy-vectors-builder

早期版本的英语模型向量是在 CommonCrawl 数据集上训练的 GloVe 向量。一般来说(例如对于其他语言/版本),此信息列在 spacy-models 存储库的模型发行说明中。

© www.soinside.com 2019 - 2024. All rights reserved.