参数'token_pattern'将不会被使用,因为'tokenizer'不是none'

问题描述 投票:0回答:1

我正在尝试删除标点符号和空格(包括换行符)并过滤由字母组成的标记 仅字符,并返回标记文本。 我首先定义函数

  return [t.text for t in nlp(doc) if \
          not t.is_punct and \
          not t.is_space and \
          t.is_alpha]

然后我向量化

vectorizer = TfidfVectorizer(tokenizer=spacy_tokenizer)
train_feature_vects = vectorizer.fit_transform(train_data)

终端卡住,并表示不会使用参数“token_pattern”,因为“tokenizer”不是“无”。 我做错了什么?

python machine-learning naivebayes
1个回答
0
投票

对于sklearn中的

TfidfVectorizer
CountVectorizer
等,要定义自己的
tokenizer
,还需要将
token_pattern
设置为
None

vectorizer = TfidfVectorizer(tokenizer=spacy_tokenizer, token_pattern=None)
© www.soinside.com 2019 - 2024. All rights reserved.