我有以下代码可以从给定文本中删除孟加拉语单词。它可以成功地从文本中删除列出的单词,但无法删除带有标点符号的单词。例如,在这里,从输入文本“বিশ্বেরবিশ্বেরদূষিতনাবায়ুর,শহরেরনা”,它可以删除,“তথা”和“না”(自word_list中列出),但它无法用标点删除না(” ”和“না।”)。我也想删除带标点符号的单词,但保留标点符号。请查看下面的当前和预期输出。非常感谢。
word_list = {'নিজের', 'তথা', 'না'}
def remove_w(text):
return ' '.join(w for w in text.split() if w not in word_list)
remove_w('বিশ্বের তথা দূষিত না বায়ুর না, শহরের না।')
当前输出:::
预期输出:::
re.split("[ ,]+")
(我无法想象,还有什么标点符号适用于该字符集。)否则“a”当然与“a”不同,因此
in word_list
不会返回true.