使用 page.searchc_for 在 pdf 中搜索匹配的单词

Question

我有一个单词列表，我正在使用 python 中的 fitz 在 pdf 文档中搜索这些单词该代码通常适用于大多数单词，除了“效率”之类的少数单词

我的代码如下：

        if (len(re.findall(f'\\b{phrase.casefold()}s?\\b', mpage.casefold(), flags=0))>0) :
        
             text_instances = page.search_for(phrase, quads=True)

此代码适用于除某些单词之外的大多数单词，例如效率对于“效率”这个词，if语句成功匹配但 page.search_for 语句不匹配下图中给出的单词“efficiency”对于第一个和第二个 f 有不同的字体是不是因为这个才导致单词不匹配呢？

Answer 1

我找到了解决方案。为了忽略连字，我们应该设置 flags = 0 作为

text_instances = page.search_for(phrase,flags = 0,quads=True)

此链接帮助我找到了解决方案 https://github.com/pymupdf/PyMuPDF/issues/1503

感谢@jorj-mickie https://stackoverflow.com/users/4474869/jorj-mckie

使用 page.searchc_for 在 pdf 中搜索匹配的单词

问题描述投票：0回答：1

1个回答

最新问题

使用 page.searchc_for 在 pdf 中搜索匹配的单词

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1