我需要在Doc2Vec的无监督培训中为我提供的2个选择的建议。场景是我有N个文档,每个文档的大小都超过3000个令牌。因此,现在训练哪种方法更好:
[您应该注意文档中包含10000个以上标记的文档–这是gensim
的内部实现限制,并且单个文档中位于第10000位以上的标记将被忽略。
但是您是否应将文档分为1000个令牌块完全取决于哪种数据最适合您的特定数据和目标。如果您有理由考虑–也许您想获取子文档范围的结果? –那么您应该尝试一下,将结果与替代方法进行比较,并使用效果更好的方法。没有普遍的答案。