[当使用Tokenizer类在keras中对文本序列进行标记时,我们可以指定参数'num_words'以仅考虑数据集中的[top] n个词。我的疑问是
指向任何好的资源或示例解释将非常有用。
[这里]表示整个数据集上单词的频率。它根据每个单词的降序频率考虑单词的(num_words)个。我的疑问是,很明显停用词会出现次数比其他单词多,因此大多数停用词将使其排在前(num_words)个单词,但是要处理此问题,我们首先删除停用词,然后应用标记化。