我有一个单词列表,我正在使用 python 中的 fitz 在 pdf 文档中搜索这些单词 该代码通常适用于大多数单词,除了“效率”之类的少数单词
我的代码如下:
if (len(re.findall(f'\\b{phrase.casefold()}s?\\b', mpage.casefold(), flags=0))>0) :
text_instances = page.search_for(phrase, quads=True)
此代码适用于除某些单词之外的大多数单词,例如效率 对于“效率”这个词,if语句成功匹配 但 page.search_for 语句不匹配 下图中给出的单词“efficiency”对于第一个和第二个 f 有不同的字体 是不是因为这个才导致单词不匹配呢?
我找到了解决方案。 为了忽略连字,我们应该设置 flags = 0 作为
text_instances = page.search_for(phrase,flags = 0,quads=True)
此链接帮助我找到了解决方案 https://github.com/pymupdf/PyMuPDF/issues/1503
感谢@jorj-mickie https://stackoverflow.com/users/4474869/jorj-mckie