[如何在python中使用正则表达式删除特定单词? [关闭]

问题描述 投票:-1回答:1

我正在研究一种机器学习模型,以推荐job functions,员工可以根据其job title进行工作。我的数据集有2个类别变量(job titlejob function)。

job title列具有类似于以下的值:['高级销售代表开罗','技术支持代表西班牙语','仅限电话销售专业女性']]

[我想忽略很多单词,例如'only','Cairo','Spanish'和'Females'。

在向算法提供数据之前,如何从数据集中删除这些单词?我试图列出这些单词,然后在job title列上进行迭代以检测这些单词并将其删除,但是我认为这种方式很乏味,因为我的数据集中有很多这样的单词。

是否有正则表达式技术来检测和删除此类单词?

python regex
1个回答
0
投票

如果您想从给定的文本中删除一组单词,可以这样操作>]

baised_words = ["Spanish", "Females", "only", "Cario"]
pattern = r'''\b({})\b'''.format('|'.join(baised_words))
source_str = "...." # your source string
compiled_pattern = re.compile(pattern, re.I)
re.sub(compiled_pattern, '', source_str)

您可以看一下re.sub

© www.soinside.com 2019 - 2024. All rights reserved.