使用python的TF-IDF向量器。

问题描述投票：0回答：1

我对python中的TfidfVectorizer函数有一个问题。例如，如果我有一个像这样的字符串：'xxx/xx.aaa.bb.ccc.d'将被提取这些词作为字典的键：'xxx'，'xx'，'aaa'，'bb'，'ccc'，'d'，而不是，我想创建这些新的功能：'xxx/xx.' ，'aaa.bb.ccc.d'。, 'aaa.bb.ccc.d'。

我如何要求TfidfVectorizer函数选择用空格(' ')分隔的单词？

python vectorization tf-idf tfidfvectorizer

1个回答

0
投票

请看一下。https:/scikit-learn.orgstablemodulesgeneratedsklearn.feature_extraction.text.TfidfVectorizer.html。

有一个名为token-pattern的参数。

0
投票

token-pattern 在TfidfVectorizer中用于指定自定义分割模式的参数。

from sklearn.feature_extraction.text import TfidfVectorizer
a = ['xxx//xx. aaa.bb.ccc.d']  
t = TfidfVectorizer(token_pattern=r"([a-z]*//[a-z]*)|([a-z.]*)")

输出

[('', ''), ('', '.'), ('', 'aaa.bb.ccc.d'), ('xxx//xx', '')]

在这种情况下，需要进行一些后期清理。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.