如何使用 TfidfVectorizer 传递我的停用词列表?

问题描述 投票:0回答:0

我正在尝试将 TfidfVectorizer 函数与我自己的停用词列表一起使用,并使用我自己的分词器函数。目前我正在这样做:

def transformation_libelle(sentence, **args):
    stemmer = SnowballStemmer("french")
    sentence_clean = re.compile(r'^[A-Z][A-Z][A-Z]\d ').sub('', sentence.replace(r'_', " ").replace(r'-', " "))
    return [stemmer.stem(token).upper() for token in re.split(r'\W+', sentence_clean) if token not in stop_words and not all([char.isdigit() or char == '.' for char in token])]

tfidf_vectorizer = TfidfVectorizer(max_df=0.5,
                                 min_df=0,
                                 use_idf=True, tokenizer=transformation_libelle, lowercase=False,
                                 ngram_range=(1,3), stop_words=stop_words)

使用停止词我自己的列表。我怎样才能通过我的分词器函数传递它?

谢谢

python scikit-learn tf-idf stop-words
© www.soinside.com 2019 - 2024. All rights reserved.