[如何在python中使用正则表达式删除特定单词？ [关闭]

Question

我正在研究一种机器学习模型，以推荐job functions，员工可以根据其job title进行工作。我的数据集有2个类别变量（job title，job function）。

job title列具有类似于以下的值：['高级销售代表开罗'，'技术支持代表西班牙语'，'仅限电话销售专业女性']]

[我想忽略很多单词，例如'only'，'Cairo'，'Spanish'和'Females'。

在向算法提供数据之前，如何从数据集中删除这些单词？我试图列出这些单词，然后在job title列上进行迭代以检测这些单词并将其删除，但是我认为这种方式很乏味，因为我的数据集中有很多这样的单词。

是否有正则表达式技术来检测和删除此类单词？

Answer 1

如果您想从给定的文本中删除一组单词，可以这样操作>]

baised_words = ["Spanish", "Females", "only", "Cario"]
pattern = r'''\b({})\b'''.format('|'.join(baised_words))
source_str = "...." # your source string
compiled_pattern = re.compile(pattern, re.I)
re.sub(compiled_pattern, '', source_str)
您可以看一下re.sub

[如何在python中使用正则表达式删除特定单词？ [关闭]

问题描述投票：-1回答：1

1个回答

最新问题

[如何在python中使用正则表达式删除特定单词？ [关闭]

问题描述 投票：-1回答：1

1个回答

最新问题

问题描述投票：-1回答：1