参数'token_pattern'将不会被使用，因为'tokenizer'不是none'

Question

我正在尝试删除标点符号和空格（包括换行符）并过滤由字母组成的标记仅字符，并返回标记文本。我首先定义函数

  return [t.text for t in nlp(doc) if \
          not t.is_punct and \
          not t.is_space and \
          t.is_alpha]

然后我向量化

vectorizer = TfidfVectorizer(tokenizer=spacy_tokenizer)
train_feature_vects = vectorizer.fit_transform(train_data)

终端卡住，并表示不会使用参数“token_pattern”，因为“tokenizer”不是“无”。我做错了什么？

Answer 1

对于sklearn中的

TfidfVectorizer

、

CountVectorizer

等，要定义自己的

tokenizer

，还需要将

token_pattern

设置为

None

：

vectorizer = TfidfVectorizer(tokenizer=spacy_tokenizer, token_pattern=None)