我正在开发一个涉及处理文本数据的项目。我的目标是纠正与文本中不必要的字符和空格特别相关的错误。我正在寻找有关合适的 Python 库和工具的建议,以帮助解决这些问题。
多余的空间:
正确:“我们昨天买了一辆新车。”到“我们昨天买了一辆新车。”
正确:“今天是非常美好的一天。”到“今天是美好的一天。”
正确:“你好!你好吗?”到“你好!你好吗?”
我已经探索了几种现有的解决方案,但其中大多数要么对于我们的需求来说太基础,要么需要大量的计算资源。此外,对于我的项目来说,在内部进行数据处理以确保数据隐私和安全至关重要。因此,我需要一个可以轻松定制的工具,可以集成到现有项目中,而无需大量额外的硬件投资,并且无需依赖外部 API 调用即可运行。
我对解决方案的期望:
轻松定制和集成功能。
不需要大量的计算资源。
必须在本地操作,不能依赖外部API调用进行数据处理。
如果有任何关于合适的 Python 库、工具或开源项目的建议,我将不胜感激,这些建议可以帮助解决上述涉及无关字符和空格的问题,并符合这些要求。
像往常一样,这个问题有多种解决方案,但我个人更喜欢NLTK(自然语言工具包),因为它不需要任何外部的东西,就像你所要求的那样,而且据我所经历,也不是那个资源-密集的。我希望它也适合您。
这是一个代码示例(使用NLTK解决您的问题)
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize
def correct_spaces(text):
words = word_tokenize(text)
corrected_text = ' '.join(words)
return corrected_text
#your test case
text = "We boug ht a new car yesterday."
corrected_text = correct_spaces(text)
print(corrected_text)