如何在gensim模型中找到代币数量

问题描述 投票:0回答:2

这是使用Gensim.i的模型的代码,运行它并返回一个元组。我想知道令牌数量是哪一个?

model = gensim.models.Word2Vec(mylist5,size=100, sg=0, window=5, alpha=0.05, min_count=5, workers=12, iter=20, cbow_mean=1, hs=0, negative=15)

model.train(mylist5, total_examples=len(mylist5), epochs=10)

我的模型返回的值是:我需要知道这是什么吗?

 (167131589, 208757070)

我想知道代币的数量是多少?

python-3.x gensim
2个回答
1
投票

Gensim Code

[Gensim Github Line573显示model.train返回两个值训练的单词数,原始的单词数。

“” raw_word_count“是训练中使用的单词数。

“ trained_word_count”是忽略未知单词并修剪句子长度之后的原始单词数。


0
投票

由于实例化模型时您已经传递了mylist5语料库,它将自动完成所有步骤以使用该数据训练模型。

((您几乎不需要,而且几乎肯定不应该再次调用.train()。通常,仅当您在实例化过程中未提供任何语料库时才应调用.train()。在这种情况下,您d然后同时调用.build_vocab().train()。)

[正如其他答复者所指出的,.train()报告的数字是训练过程中看到的总代币的两个记数。 (大多数用户实际上并不需要此信息。)

如果您想知道模型学习单词向量的唯一令牌的数量,len(model.wv.vocab)是一种方法。

© www.soinside.com 2019 - 2024. All rights reserved.