python重新搜索语法以识别分布在多行上的文本模式

问题描述 投票:1回答:1

我最近开始使用python和正则表达式。作为第一个项目,我想读取pdf文件,过滤特定的文本数据并在Excel工作表中重新组合。因此,我遇到了一个正则表达式问题:

pdf文件输出格式:

...

此行的文本并不总是在这里\ n

社区在这里为您提供特定编码,算法,或语言问题。\ n

摘要\ n

询问 \ n

此行的文本并不总是在这里\ n

...

我想搜索“询问”并通过“特定编码”和“ \ n摘要\ n”找到它。 “ ask”下面的文本不能总是可靠地找到,因为它总是不同的。

我试图为此使用(?= ...)和(?<= ...),但我找不到合适的解决方案。

也许我做错了。有人有主意吗?

python regex
1个回答
1
投票

如果要查找ask,则可以使用捕获组代替环顾四周。您可以匹配specific coding,然后匹配其余的.*

如果后面有空行和换行符,则可以使用\s*进行匹配。

然后匹配换行符,后接Summarize

再次匹配空行和换行符,然后在捕获组中捕获ask

\bspecific coding\b.*\s*\r?\nSummarize\s*\r?\n(ask)\b

Regex demo

© www.soinside.com 2019 - 2024. All rights reserved.