tokenizer = Tokenizer(num_words=my_max)
我正在使用keras预处理标记器来为机器学习模型处理文本语料库。 Tokenizer的参数之一是num_words参数,该参数定义字典中单词的数量。应该如何选择此参数?我可以选择一个庞大的数字,并保证每个单词都会被包括在内,但是如果将某些单词仅出现一次,则将它们组合成一个简单的“词汇量不足”的标记可能会更加有用。设置此参数的策略是什么?
我的特殊用例是处理推文的模型,因此每个条目都少于140个字符,并且所用单词的类型有些重叠。该模型适用于有关抽出体现情感的文字的滑稽表演竞赛(即“我的老板欺负我”返回“欺负我”)]
[基本问题是“哪种词能建立情感,它们在推文中出现的频率是多少?”
当然,没有确切的答案。
这是我要解决的方法:
然后,我将开始尝试不同的值,并查看对输出的影响。
没有“真实”答案的道歉。我认为,选择该值没有单一的真正策略。相反,答案应该来自利用训练数据的特征和统计信息。