如何逐步训练word2vec模型

问题描述投票：0回答：1

我有一个超过40G的数据集。由于内存有限，令牌生成器的程序被杀死，因此我尝试拆分数据集。如何逐步训练word2vec模型，即如何使用单独的数据集训练一个word2vec模型？

我当前的word2vec代码是：

model = gensim.models.Word2Vec(documents, size=150, window=10, min_count=1, workers=10)
model.train(documents,total_examples=len(documents),epochs=epochs)
model.save("./word2vec150d/word2vec_{}.model".format(epochs))

任何帮助将不胜感激！

python word2vec

1个回答

0
投票

我已经找到解决方案：使用PathLineSentences。非常快。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.