我正在尝试删除标点符号和空格(包括换行符)并过滤由字母组成的标记 仅字符,并返回标记文本。 我首先定义函数
return [t.text for t in nlp(doc) if \
not t.is_punct and \
not t.is_space and \
t.is_alpha]
然后我向量化
vectorizer = TfidfVectorizer(tokenizer=spacy_tokenizer)
train_feature_vects = vectorizer.fit_transform(train_data)
终端卡住,并表示不会使用参数“token_pattern”,因为“tokenizer”不是“无”。 我做错了什么?
对于sklearn中的
TfidfVectorizer
、CountVectorizer
等,要定义自己的tokenizer
,还需要将token_pattern
设置为None
:
vectorizer = TfidfVectorizer(tokenizer=spacy_tokenizer, token_pattern=None)