使用 page.searchc_for 在 pdf 中搜索匹配的单词

问题描述 投票:0回答:1

我有一个单词列表,我正在使用 python 中的 fitz 在 pdf 文档中搜索这些单词 该代码通常适用于大多数单词,除了“效率”之类的少数单词

我的代码如下:

        if (len(re.findall(f'\\b{phrase.casefold()}s?\\b', mpage.casefold(), flags=0))>0) :
        
             text_instances = page.search_for(phrase, quads=True)

此代码适用于除某些单词之外的大多数单词,例如效率 对于“效率”这个词,if语句成功匹配 但 page.search_for 语句不匹配 下图中给出的单词“efficiency”对于第一个和第二个 f 有不同的字体 是不是因为这个才导致单词不匹配呢?

python pattern-matching matching string-matching pymupdf
1个回答
0
投票

我找到了解决方案。 为了忽略连字,我们应该设置 flags = 0 作为

text_instances = page.search_for(phrase,flags = 0,quads=True)

此链接帮助我找到了解决方案 https://github.com/pymupdf/PyMuPDF/issues/1503

感谢@jorj-mickie https://stackoverflow.com/users/4474869/jorj-mckie

© www.soinside.com 2019 - 2024. All rights reserved.