Spacy 创建矢量表示的内置方法是什么? 我对我的语料库进行了 NLP,然后使用 .similarity(余弦相似度)来绘制出“相似”的文档。但是,我不确定 spacy 使用什么方法来创建矢量表示。据我所知,我认为这可能是带有负采样的 word2vec Skip-gram,但是,我想确定一下!
对于 SpaCy 英语模型 3.4.0 及更高版本(
en_core_web_md
和 en_core_web_lg
),默认词向量是在多个数据集(Wikipedia、OpenSubtitles、WMT Newscrawl、OSCAR 21.09)上预训练的小花向量。包含训练详细信息的存储库是:https://github.com/explosion/spacy-vectors-builder
早期版本的英语模型向量是在 CommonCrawl 数据集上训练的 GloVe 向量。一般来说(例如对于其他语言/版本),此信息列在 spacy-models 存储库的模型发行说明中。