使用 pypdf2 阅读非英语文本

问题描述 投票:0回答:1

我正在尝试使用 pypdf 阅读 pdf。 PDF 包含非英语文本,这里是印地语文本

pdf_file = open("/content/drive/MyDrive/DARE_Hindi_AR_2014-15-1-1.pdf", 'rb') # pdf link is https://icar.org.in/sites/default/files/inline-files/DARE_Hindi_AR_2014-15-1-1.pdf

pdf_reader = PyPDF2.PdfReader(pdf_file)

pdf_text = ""

for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    pdf_text += page.extract_text()

当我打印时

pdf_text
我得到

•ŸÈ‚¥œÊŸ ∞fl¥ Áfl∑§Ê‚ ‚¥’¥œË ¬˝ÿÊ‚Ù¥ ‚ ’˝«-ª„Í¥ ¡ËŸÙ◊ ∑‘§ ∑˝§◊ ∑§Ê ◊‚ıŒÊ πÙ¡Ÿ ÃÕÊ •‚Ë‹ ¬ˇÊË ∑‘§ ‚ê¬Íáʸ ¡ËŸÙ◊ ∑§Ê ÁŸœÊ¸⁄UáÊ∑§⁄UŸ fl ÃËŸ SÃ⁄UËÿ ‡ÊÍ∑§⁄U ífl⁄U ≈UË∑§Ê ¬˝÷ŒÙ¥, ¬S≈U «‚ ¬ÁS≈U‚ ⁄UÙ◊¥ÕË Áfl·ÊáÊÈ (¬Ë¬Ë•Ê⁄UflË) •ı⁄U ãÿÍ ∑Ò§‚‹ ⁄UÙª Áfl·ÊáÊÈ (∞Ÿ«ËflË) ∑‘§‚¥Èª⁄UË/~{ ¬˝÷Œ ∑§Ù ÃÒÿÊ⁄U ∑§⁄UŸÊ ©ÑπŸËÿ •ŸÈ‚¥œÊŸ ©¬‹Áéœ ⁄U„Ë„Ò– “„USÃ-ÁŸŒ¸Á‡Êà ÄU‹ÙŸË∑§⁄UáÊ” ∑‘§ ◊Êäÿ◊ ‚ ©à¬ÛÊ ÷Ò¥‚ ∑§Ë ¬˝Õ◊∑§≈U«∏Ë “‹ÊÁ‹◊Ê” •ı⁄U ◊È⁄Uʸ ÷Ò¥‚ ∑§Ë ¬⁄UËÁˇÊà ‚¥ÃÁà ∑‘§ Á„◊Ë∑Χà flËÿ¸∑§Ë ∑§ÊÁÿ∑§ ∑§ÙÁ‡Ê∑§Ê ‚ ÄU‹ÙŸË∑Χà “⁄U¡Ã” ∑§Ê ¡ã◊ ©à‚Ê„flœ¸∑§ ⁄U„Ê–ªÙ¬‡ÊÈ•Ù¥ ∑§Ë Œ‚Ë ŸS‹Ù¥ ‚¥∑§Ù⁄UË, ’‹Ê„Ë •ı⁄U ◊ÁáʬÈÈ⁄UË; ªÙ¡⁄UË ÷Ò¥‚;„Á⁄UŸÉÊÊ≈UÊ ∑§Ê‹Ë ◊Ȫ˸ ÃÕÊ å‹ÄU≈˛Ê∞¥ÁÕÿÊ‚ ∞À∑§Ù∑§Ë •ı⁄U ¬껑§Á⁄U‚ ‚⁄UÿÍ ¡Ò‚Ë ◊¿Á‹ÿÙ¥ ∑§ ªÈáÊÊ¥ ∑§Ê ‹ˇÊáÊ-fláʸŸ fl ‚¥⁄UˇÊáÊ ◊„àfl¬Íáʸ ©¬‹ÁéœÿÊ¥ „Ò¥–

当我尝试阅读另一个文件时 - https://www.surveyofindia.gov.in/documents/coi-hindi.pdf,我得到与上面类似的文本。

阅读非英文pdf的正确方法是什么?

我已经在问题描述中包含了我的尝试

python-3.x encoding hindi pdf-reader non-english
1个回答
0
投票

问)阅读非英文pdf的正确方法是什么?

A) 取决于应用于文档的质量保证,在本例中没有。大多数县都有 DDA 或 508 等效文件,要求 PDF 为盲人计算机可读等。此文件尚未编码为可读。

选项是双重的

  • 1 根据当地的“信息自由”规则,索取相关文档的 DDA 兼容副本。
  • 2 使用OCR,希望得到听起来正确的东西,从而可以被AI(音频翻译器)阅读。
© www.soinside.com 2019 - 2024. All rights reserved.