使用python的TF-IDF向量器。

问题描述 投票:0回答:1

我对python中的TfidfVectorizer函数有一个问题。例如,如果我有一个像这样的字符串:'xxx/xx.aaa.bb.ccc.d'将被提取这些词作为字典的键:'xxx','xx','aaa','bb','ccc','d',而不是,我想创建这些新的功能:'xxx/xx.' ,'aaa.bb.ccc.d'。, 'aaa.bb.ccc.d'。

我如何要求TfidfVectorizer函数选择用空格(' ')分隔的单词?

python vectorization tf-idf tfidfvectorizer
1个回答

0
投票

token-pattern 在TfidfVectorizer中用于指定自定义分割模式的参数。

from sklearn.feature_extraction.text import TfidfVectorizer
a = ['xxx//xx. aaa.bb.ccc.d']  
t = TfidfVectorizer(token_pattern=r"([a-z]*//[a-z]*)|([a-z.]*)")

输出

[('', ''), ('', '.'), ('', 'aaa.bb.ccc.d'), ('xxx//xx', '')]

在这种情况下,需要进行一些后期清理。

© www.soinside.com 2019 - 2024. All rights reserved.