如何删除带有标点符号的单词以保持 python 中文本中的标点符号

问题描述 投票:0回答:1

我有以下代码可以从给定文本中删除孟加拉语单词。它可以成功地从文本中删除列出的单词,但无法删除带有标点符号的单词。例如,在这里,从输入文本“বিশ্বেরবিশ্বেরদূষিতনাবায়ুর,শহরেরনা”,它可以删除,“তথা”和“না”(自word_list中列出),但它无法用标点删除না(” ”和“না।”)。我也想删除带标点符号的单词,但保留标点符号。请查看下面的当前和预期输出。非常感谢。

word_list = {'নিজের', 'তথা', 'না'}
def remove_w(text):
    return ' '.join(w for w in text.split() if w not in word_list)
remove_w('বিশ্বের তথা দূষিত না বায়ুর না, শহরের না।')

当前输出:::

预期输出:::

python text split
1个回答
0
投票

re.split("[ ,]+")


(我无法想象,还有什么标点符号适用于该字符集。)否则“a”当然与“a”不同,因此
in word_list

不会返回true.

    

© www.soinside.com 2019 - 2024. All rights reserved.