如何为keras Tokenizer选择num_words参数?

问题描述 投票:0回答:1
tokenizer = Tokenizer(num_words=my_max)

我正在使用keras预处理标记器来为机器学习模型处理文本语料库。 Tokenizer的参数之一是num_words参数,该参数定义字典中单词的数量。应该如何选择此参数?我可以选择一个庞大的数字,并保证每个单词都会被包括在内,但是如果将某些单词仅出现一次,则将它们组合成一个简单的“词汇量不足”的标记可能会更加有用。设置此参数的策略是什么?

我的特殊用例是处理推文的模型,因此每个条目都少于140个字符,并且所用单词的类型有些重叠。该模型适用于有关抽出体现情感的文字的滑稽表演竞赛(即“我的老板欺负我”返回“欺负我”)]

tensorflow machine-learning keras nlp tokenize
1个回答
0
投票

[基本问题是“哪种词能建立情感,它们在推文中出现的频率是多少?”

当然,没有确切的答案。

这是我要解决的方法:

  1. 预处理数据,以便从推文中删除连词,stop words和“垃圾”。
  2. 获取语料库中唯一词的数量。所有这些词语对传达情感是否必不可少?
  3. 分析频率最高的单词。这些话传达情感吗?它们可以在您的预处理中删除吗?令牌生成器会记录前N个唯一词,直到字典中包含num_words个词,因此这些流行词很有可能在您的字典中。

然后,我将开始尝试不同的值,并查看对输出的影响。

没有“真实”答案的道歉。我认为,选择该值没有单一的真正策略。相反,答案应该来自利用训练数据的特征和统计信息。

© www.soinside.com 2019 - 2024. All rights reserved.