我最近开始使用python和正则表达式。作为第一个项目,我想读取pdf文件,过滤特定的文本数据并在Excel工作表中重新组合。因此,我遇到了一个正则表达式问题:
pdf文件输出格式:
...
此行的文本并不总是在这里\ n
社区在这里为您提供特定编码,算法,或语言问题。\ n
摘要\ n
询问 \ n
此行的文本并不总是在这里\ n
...
我想搜索“询问”并通过“特定编码”和“ \ n摘要\ n”找到它。 “ ask”下面的文本不能总是可靠地找到,因为它总是不同的。
我试图为此使用(?= ...)和(?<= ...),但我找不到合适的解决方案。
也许我做错了。有人有主意吗?
如果要查找ask
,则可以使用捕获组代替环顾四周。您可以匹配specific coding
,然后匹配其余的.*
如果后面有空行和换行符,则可以使用\s*
进行匹配。
然后匹配换行符,后接Summarize
。
再次匹配空行和换行符,然后在捕获组中捕获ask
\bspecific coding\b.*\s*\r?\nSummarize\s*\r?\n(ask)\b