这是使用Gensim.i的模型的代码,运行它并返回一个元组。我想知道令牌数量是哪一个?
model = gensim.models.Word2Vec(mylist5,size=100, sg=0, window=5, alpha=0.05, min_count=5, workers=12, iter=20, cbow_mean=1, hs=0, negative=15)
model.train(mylist5, total_examples=len(mylist5), epochs=10)
我的模型返回的值是:我需要知道这是什么吗?
(167131589, 208757070)
我想知道代币的数量是多少?
[Gensim Github Line573显示model.train返回两个值训练的单词数,原始的单词数。
“” raw_word_count“是训练中使用的单词数。
“ trained_word_count”是忽略未知单词并修剪句子长度之后的原始单词数。
由于实例化模型时您已经传递了mylist5
语料库,它将自动完成所有步骤以使用该数据训练模型。
((您几乎不需要,而且几乎肯定不应该再次调用.train()
。通常,仅当您在实例化过程中未提供任何语料库时才应调用.train()
。在这种情况下,您d然后同时调用.build_vocab()
和.train()
。)
[正如其他答复者所指出的,.train()
报告的数字是训练过程中看到的总代币的两个记数。 (大多数用户实际上并不需要此信息。)
如果您想知道模型学习单词向量的唯一令牌的数量,len(model.wv.vocab)
是一种方法。