Doc2Vec无监督培训

问题描述 投票:0回答:1

我需要在Doc2Vec的无监督培训中为我提供的2个选择的建议。场景是我有N个文档,每个文档的大小都超过3000个令牌。因此,现在训练哪种方法更好:

  1. 对整个文档进行培训。
  2. 将文档分成1000个令牌的块,然后进行训练。
python gensim doc2vec
1个回答
0
投票

[您应该注意文档中包含10000个以上标记的文档–这是gensim的内部实现限制,并且单个文档中位于第10000位以上的标记将被忽略。

但是您是否应将文档分为1000个令牌块完全取决于哪种数据最适合您的特定数据和目标。如果您有理由考虑–也许您想获取子文档范围的结果? –那么您应该尝试一下,将结果与替代方法进行比较,并使用效果更好的方法。没有普遍的答案。

© www.soinside.com 2019 - 2024. All rights reserved.