我对python中的TfidfVectorizer函数有一个问题。例如,如果我有一个像这样的字符串:'xxx/xx.aaa.bb.ccc.d'将被提取这些词作为字典的键:'xxx','xx','aaa','bb','ccc','d',而不是,我想创建这些新的功能:'xxx/xx.' ,'aaa.bb.ccc.d'。, 'aaa.bb.ccc.d'。
我如何要求TfidfVectorizer函数选择用空格(' ')分隔的单词?
请看一下。https:/scikit-learn.orgstablemodulesgeneratedsklearn.feature_extraction.text.TfidfVectorizer.html。
有一个名为token-pattern的参数。
token-pattern
在TfidfVectorizer中用于指定自定义分割模式的参数。
from sklearn.feature_extraction.text import TfidfVectorizer
a = ['xxx//xx. aaa.bb.ccc.d']
t = TfidfVectorizer(token_pattern=r"([a-z]*//[a-z]*)|([a-z.]*)")
输出
[('', ''), ('', '.'), ('', 'aaa.bb.ccc.d'), ('xxx//xx', '')]
在这种情况下,需要进行一些后期清理。