这个问题在这里已有答案:
我在python中使用pyPDF2包将pdf转换为文本,我想从这个文本中提取特定的单词,但是当我将句子传递给代码时会导致错误,因为pypdf2包以下列方式转换条形码。请帮我解决这个错误。我有这种名为“acc-53.txt”的文本文件:
我已经尝试过以下模式来删除这一行:
regex = re.findall('\w+ k774$ ',text)
text.decode('unicode_escape').encode('latin')
regex = '\u00?'
regex = re.findall('\III IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII IIIIIN IIIIIIIIIIIIIII I I IH I!IIII I IIIIIII I IIIIIIII II !IIIIIIIIIIIIIli, l I I !III IIIIII IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII ',sentences)
from unidecode import unidecode
text = pdf_file.read()
sentences = sent_tokenize(text)
print(sentences)
def remove_non_ascii(text):
return unidecode(unicode(text, encoding = "utf-8"))
print(regex)
def findInfo():
uuId = re.findall('\w{8}\-\w{4}\-\w{4}\-\w{4}\-\w{12}',sentences)
Gender= re.findall('female|Female|male|Male$',sentences)
tSize = re.findall( r'\d+?\.?\d+?\s?x?\s?\d+?\.?\d+?\s?x?\s?\d+?\.?
\d+mm|cm$',sentences)
Diag = re.findall(r'(DIAGNOSIS|Diagnosis):(.*?),',sentences)
side = re.findall(r'(LEFT SIDE):(.*?),', sentences)
return uuId,Gender,tSize, Diag , side
将从文本中删除条形码解码的字符串以供进一步处理。
假设您正在使用Strings,您只需使用.replace()函数删除特殊字符即可。像这样:
line.replace('|', '')
另一个例子:
someline = 'red blue green'
print(someline.replace('blue', ''))
哪个版画:“红绿”