寻找Python库来删除文本中的无关字符和空格

问题描述 投票:0回答:1

我正在开发一个涉及处理文本数据的项目。我的目标是纠正与文本中不必要的字符和空格特别相关的错误。我正在寻找有关合适的 Python 库和工具的建议,以帮助解决这些问题。

多余的空间:

  • 正确:“我们昨天买了一辆新车。”到“我们昨天买了一辆新车。”

  • 正确:“今天是非常美好的一天。”到“今天是美好的一天。”

  • 正确:“你好!你好吗?”到“你好!你好吗?”

我已经探索了几种现有的解决方案,但其中大多数要么对于我们的需求来说太基础,要么需要大量的计算资源。此外,对于我的项目来说,在内部进行数据处理以确保数据隐私和安全至关重要。因此,我需要一个可以轻松定制的工具,可以集成到现有项目中,而无需大量额外的硬件投资,并且无需依赖外部 API 调用即可运行。

我对解决方案的期望:

  • 轻松定制和集成功能。

  • 不需要大量的计算资源。

  • 必须在本地操作,不能依赖外部API调用进行数据处理。

如果有任何关于合适的 Python 库、工具或开源项目的建议,我将不胜感激,这些建议可以帮助解决上述涉及无关字符和空格的问题,并符合这些要求。

python text nlp text-processing
1个回答
0
投票

像往常一样,这个问题有多种解决方案,但我个人更喜欢NLTK(自然语言工具包),因为它不需要任何外部的东西,就像你所要求的那样,而且据我所经历,也不是那个资源-密集的。我希望它也适合您。

这是一个代码示例(使用NLTK解决您的问题)


import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

def correct_spaces(text):
    words = word_tokenize(text)
    corrected_text = ' '.join(words)
    return corrected_text
#your test case
text = "We boug ht a new car yesterday."
corrected_text = correct_spaces(text)
print(corrected_text)

© www.soinside.com 2019 - 2024. All rights reserved.