在此文本中(从PDFBox提取PDF文本结果,我需要删除地址前面的所有内容:
<mo\r\ndele\r\n_id>\r\n310\r\n02</\r\nmod\r\nele_i\r\nd> \r\n \r\n \r\n \r\n \r\n \r\n \r\nMister \r\nJohn Doe \r\nMain road 1 \r\n9999 City
当我删除所有换行符时,我可以使用正则表达式轻松删除<modele_id>xxxx</modele_id>
,但是随后我也松开了我需要正确提取地址信息的名称/街道/城市换行符。有什么好主意吗? :)否则,我需要寻找预期/可能的称呼,以便从那里开始地址提取。
如果您希望在地址前只有空格和换行符,则可以在删除.TrimStart('\r', '\n', ' ')
之后使用<modele_id>xxxx</modele_id>
:
yourCleandUpString.TrimStart('\r', '\n', ' ')