使用 pypdf2 阅读非英语文本

Question

我正在尝试使用 pypdf 阅读 pdf。 PDF 包含非英语文本，这里是印地语文本

pdf_file = open("/content/drive/MyDrive/DARE_Hindi_AR_2014-15-1-1.pdf", 'rb') # pdf link is https://icar.org.in/sites/default/files/inline-files/DARE_Hindi_AR_2014-15-1-1.pdf

pdf_reader = PyPDF2.PdfReader(pdf_file)

pdf_text = ""

for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    pdf_text += page.extract_text()

当我打印时

pdf_text

我得到

•ŸÈ‚¥œÊŸ ∞ﬂ¥ Áﬂ∑§Ê‚ ‚¥’¥œË ¬˝ÿÊ‚Ù¥ ‚ ’˝«-ª„Í¥ ¡ËŸÙ◊ ∑‘§ ∑˝§◊ ∑§Ê ◊‚ıŒÊ πÙ¡Ÿ ÃÕÊ •‚Ë‹ ¬ˇÊË ∑‘§ ‚ê¬ÍáÊ¸ ¡ËŸÙ◊ ∑§Ê ÁŸœÊ¸⁄UáÊ∑§⁄UŸ ﬂ ÃËŸ SÃ⁄UËÿ ‡ÊÍ∑§⁄U íﬂ⁄U ≈UË∑§Ê ¬˝÷ŒÙ¥, ¬S≈U «‚ ¬ÁS≈U‚ ⁄UÙ◊¥ÕË Áﬂ·ÊáÊÈ (¬Ë¬Ë•Ê⁄UﬂË) •ı⁄U ãÿÍ ∑Ò§‚‹ ⁄UÙª Áﬂ·ÊáÊÈ (∞Ÿ«ËﬂË) ∑‘§‚¥Èª⁄UË/~{ ¬˝÷Œ ∑§Ù ÃÒÿÊ⁄U ∑§⁄UŸÊ ©ÑπŸËÿ •ŸÈ‚¥œÊŸ ©¬‹Áéœ ⁄U„Ë„Ò– “„USÃ-ÁŸŒ¸Á‡ÊÃ ÄU‹ÙŸË∑§⁄UáÊ” ∑‘§ ◊Êäÿ◊ ‚ ©à¬ÛÊ ÷Ò¥‚ ∑§Ë ¬˝Õ◊∑§≈U«∏Ë “‹ÊÁ‹◊Ê” •ı⁄U ◊È⁄UÊ¸ ÷Ò¥‚ ∑§Ë ¬⁄UËÁˇÊÃ ‚¥ÃÁÃ ∑‘§ Á„◊Ë∑Î§Ã ﬂËÿ¸∑§Ë ∑§ÊÁÿ∑§ ∑§ÙÁ‡Ê∑§Ê ‚ ÄU‹ÙŸË∑Î§Ã “⁄U¡Ã” ∑§Ê ¡ã◊ ©à‚Ê„ﬂœ¸∑§ ⁄U„Ê–ªÙ¬‡ÊÈ•Ù¥ ∑§Ë Œ‚Ë ŸS‹Ù¥ ‚¥∑§Ù⁄UË, ’‹Ê„Ë •ı⁄U ◊ÁáÊ¬ÈÈ⁄UË; ªÙ¡⁄UË ÷Ò¥‚;„Á⁄UŸÉÊÊ≈UÊ ∑§Ê‹Ë ◊ÈªË¸ ÃÕÊ å‹ÄU≈˛Ê∞¥ÁÕÿÊ‚ ∞À∑§Ù∑§Ë •ı⁄U ¬ê»‘§Á⁄U‚ ‚⁄UÿÍ ¡Ò‚Ë ◊¿Á‹ÿÙ¥ ∑§ ªÈáÊÊ¥ ∑§Ê ‹ˇÊáÊ-ﬂáÊ¸Ÿ ﬂ ‚¥⁄UˇÊáÊ ◊„àﬂ¬ÍáÊ¸ ©¬‹ÁéœÿÊ¥ „Ò¥–

当我尝试阅读另一个文件时 - https://www.surveyofindia.gov.in/documents/coi-hindi.pdf，我得到与上面类似的文本。

阅读非英文pdf的正确方法是什么？

我已经在问题描述中包含了我的尝试

Answer 1

问）阅读非英文pdf的正确方法是什么？

A) 取决于应用于文档的质量保证，在本例中没有。大多数县都有 DDA 或 508 等效文件，要求 PDF 为盲人计算机可读等。此文件尚未编码为可读。

选项是双重的

1 根据当地的“信息自由”规则，索取相关文档的 DDA 兼容副本。
2 使用OCR，希望得到听起来正确的东西，从而可以被AI（音频翻译器）阅读。

使用 pypdf2 阅读非英语文本

问题描述投票：0回答：1

1个回答

最新问题

使用 pypdf2 阅读非英语文本

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1