从df.columns单词中的文本中删除非英语单词包含字母和数字

问题描述 投票:0回答:1

如何从df.columns单词中包含字母和数字的文本中删除非英语单词

Ex

df ['text']

''interiors nrd studio |母亲节快乐,“没有像母亲那样强大的影响力。” —sara josepha hale ...母亲节快乐,妈妈和全世界所有母亲!很多光娜塔莎0wet3bxtfl'

'但每天仍然想念你,母亲节快乐,弗朗西斯·麦克拉蒂(mccool)9wlhju7cxf'

从上面两行中,我需要删除单词'0wet3bxtfl'和'9wlhju7cxf'

python nlp nltk preprocessor word
1个回答
0
投票

该示例包括保留一些在英语单词列表(“ nrd”,“ mcclafferty”,“ mccool”)中找不到的字符串,同时删除了“ 0wet3bxtfl”和“ 9wlhju7cxf”,因此预期结果可能是最好的通过删除所有包含字母后跟数字或数字后跟字母的非空白序列(以及后面的任何空格),而无需考虑单词是否为“英语”。

以下将执行此操作:

import re

...

filtered = re.sub('[^\s]*(\d[a-zA-Z]|[a-zA-Z]\d)[^\s]* *', '', df['text'])
© www.soinside.com 2019 - 2024. All rights reserved.