python的功能是做什么的,基本上是找出何时以及如何使用该功能

问题描述 投票:0回答:1
def tokenize_corpus(corpus, num_words=-1):
    # Fit a Tokenizer on the corpus
    if num_words > -1:
        tokenizer = Tokenizer(num_words=num_words)
    else:
        tokenizer = Tokenizer()
    tokenizer.fit_on_texts(corpus)
    return tokenizer

该函数要做什么?我理解“其他”之后的部分,但在此之前我无法理解,可以有人解释一下。

python machine-learning nlp stringtokenizer
1个回答
0
投票

Tokenizer是文本标记化实用程序类。

此类允许将每个文本转换为整数序列或向量,从而对文本语料库进行向量化

参数num_words:保留的最大单词数,基于单词频率。仅保留最常见的num_words-1个单词。

在这里更多https://keras.io/api/preprocessing/text/

Coursera教程[推荐]:https://www.coursera.org/lecture/natural-language-processing-tensorflow/working-with-the-tokenizer-VEUJX

© www.soinside.com 2019 - 2024. All rights reserved.