我有一个pickle文件中的单词数组,还有一个npy文件中的对应矢量数组,如何将它们组合起来以生成Gensim W2V模型?
这不足以构成完整的Word2Vec
模型实例,通常是通过对文本语料库进行调查然后对其进行训练而创建的。 (这些步骤还编译了必要的词频并训练了不属于一组词向量的内部模型权重。)
您可以创建维度正确的gensim
KeyedVectors
实例,然后使用其.add()
方法添加值。这就要求您以相同的顺序列出单词和向量数组。这将允许对字向量进行很多标准操作,例如.add()
,但不允许进一步的word2vec训练。