def tokenize_corpus(corpus, num_words=-1):
# Fit a Tokenizer on the corpus
if num_words > -1:
tokenizer = Tokenizer(num_words=num_words)
else:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(corpus)
return tokenizer
该函数要做什么?我理解“其他”之后的部分,但在此之前我无法理解,可以有人解释一下。
Tokenizer是文本标记化实用程序类。
此类允许将每个文本转换为整数序列或向量,从而对文本语料库进行向量化
参数num_words:保留的最大单词数,基于单词频率。仅保留最常见的num_words-1个单词。
在这里更多https://keras.io/api/preprocessing/text/
Coursera教程[推荐]:https://www.coursera.org/lecture/natural-language-processing-tensorflow/working-with-the-tokenizer-VEUJX