keras Tokenizer的num_words参数如何工作?

问题描述 投票:0回答:1

[当使用Tokenizer类在keras中对文本序列进行标记时,我们可以指定参数'num_words'以仅考虑数据集中的[top] n个词。我的疑问是

  1. [top]值是什么意思?这是否意味着单词的频率或其他任何值,例如tf-idf?
  2. [top]值是在每个文档级别计算还是通过考虑整个数据集计算?

指向任何好的资源或示例解释将非常有用。

machine-learning keras nlp text-processing
1个回答
0
投票

[这里]表示整个数据集上单词的频率。它根据每个单词的降序频率考虑单词的(num_words)个。我的疑问是,很明显停用词会出现次数比其他单词多,因此大多数停用词将使其排在前(num_words)个单词,但是要处理此问题,我们首先删除停用词,然后应用标记化。

© www.soinside.com 2019 - 2024. All rights reserved.