python重新搜索语法以识别分布在多行上的文本模式

Question

我最近开始使用python和正则表达式。作为第一个项目，我想读取pdf文件，过滤特定的文本数据并在Excel工作表中重新组合。因此，我遇到了一个正则表达式问题：

pdf文件输出格式：

...
此行的文本并不总是在这里\ n
社区在这里为您提供特定编码，算法，或语言问题。\ n
摘要\ n
询问 \ n
此行的文本并不总是在这里\ n
...

我想搜索“询问”并通过“特定编码”和“ \ n摘要\ n”找到它。 “ ask”下面的文本不能总是可靠地找到，因为它总是不同的。

我试图为此使用（？= ...）和（？<= ...），但我找不到合适的解决方案。

也许我做错了。有人有主意吗？

Answer 1

如果要查找ask，则可以使用捕获组代替环顾四周。您可以匹配specific coding，然后匹配其余的.*

如果后面有空行和换行符，则可以使用\s*进行匹配。

然后匹配换行符，后接Summarize。

再次匹配空行和换行符，然后在捕获组中捕获ask

\bspecific coding\b.*\s*\r?\nSummarize\s*\r?\n(ask)\b