如何使用Hashtag并从Countvectorizer token_pattern中提取字符presercve

问题描述 投票:0回答:1

我使用sklearn库从推文中提取字数。但我有一个问题,即失去一些特殊字符。我想从countvectorizer函数中保留#和@chars。

默认的token_pattern参数是:token_pattern ='(?u)\ b \ w \ w + \ b'

例如,语料库在下面;

['@terör @terör #terör ak @terör ali ali ...']

输出是;

['ak', 'ali', 'terör', ...]

默认正则表达式删除特殊字符。我怎样才能保留这些字符?

hashtag countvectorizer
1个回答
0
投票

我改变参数;

token_pattern=r'\b\w\w+\b|(?<!\w)@\w+|(?<!\w)#\w+')

输出符合要求;

['@terör', '#terör', ...]
© www.soinside.com 2019 - 2024. All rights reserved.