gensim 中的“词类型”有哪些?

问题描述 投票:0回答:1

我正在使用

word2vec
训练一个大型
gensim
模型,并使用日志记录来跟踪训练过程。日志显示

PROGRESS: at sentence #3060000, processed 267654284 words, keeping 940042 word types

这些词的类型是什么?数据中200M+个token中的唯一词是什么?我在文档中找不到任何内容。

python gensim
1个回答
0
投票

是的,这是在最初的第一次词汇调查期间报告进度,这是记录中发现的独特单词标记的奇怪术语。

在扫描过程中,这将是遇到的唯一令牌的精确计数,除非您使用

max_vocab_size
参数,该参数可以触发一些扫描中清除较稀有的令牌。 (我强烈建议不要使用
max_vocab_size
设置,除非没有它就无法继续,因为它会对调查的运行计数和最终词汇量产生非直观的影响。)

扫描结束时,还会有一份最终唯一计数的报告,然后是应用

min_count
后的唯一计数。

如果您想对已知词汇设置硬性上限(例如在训练期间限制模型的大小),可以使用

max_final_vocab
参数。 (它仅在完整扫描结束时修剪到最频繁的 N 个单词,而不是由
max_vocab_size
触发的临时较大的中间扫描剔除。)

© www.soinside.com 2019 - 2024. All rights reserved.