我正在尝试使用 pypdf 阅读 pdf。 PDF 包含非英语文本,这里是印地语文本
pdf_file = open("/content/drive/MyDrive/DARE_Hindi_AR_2014-15-1-1.pdf", 'rb') # pdf link is https://icar.org.in/sites/default/files/inline-files/DARE_Hindi_AR_2014-15-1-1.pdf
pdf_reader = PyPDF2.PdfReader(pdf_file)
pdf_text = ""
for page_num in range(len(pdf_reader.pages)):
page = pdf_reader.pages[page_num]
pdf_text += page.extract_text()
当我打印时
pdf_text
我得到
•ŸÈ‚¥œÊŸ ∞fl¥ Áfl∑§Ê‚ ‚¥’¥œË ¬˝ÿÊ‚Ù¥ ‚ ’˝«-ª„Í¥ ¡ËŸÙ◊ ∑‘§ ∑˝§◊ ∑§Ê ◊‚ıŒÊ πÙ¡Ÿ ÃÕÊ •‚Ë‹ ¬ˇÊË ∑‘§ ‚ê¬Íáʸ ¡ËŸÙ◊ ∑§Ê ÁŸœÊ¸⁄UáÊ∑§⁄UŸ fl ÃËŸ SÃ⁄UËÿ ‡ÊÍ∑§⁄U ífl⁄U ≈UË∑§Ê ¬˝÷ŒÙ¥, ¬S≈U «‚ ¬ÁS≈U‚ ⁄UÙ◊¥ÕË Áfl·ÊáÊÈ (¬Ë¬Ë•Ê⁄UflË) •ı⁄U ãÿÍ ∑Ò§‚‹ ⁄UÙª Áfl·ÊáÊÈ (∞Ÿ«ËflË) ∑‘§‚¥Èª⁄UË/~{ ¬˝÷Œ ∑§Ù ÃÒÿÊ⁄U ∑§⁄UŸÊ ©ÑπŸËÿ •ŸÈ‚¥œÊŸ ©¬‹Áéœ ⁄U„Ë„Ò– “„USÃ-ÁŸŒ¸Á‡Êà ÄU‹ÙŸË∑§⁄UáÊ” ∑‘§ ◊Êäÿ◊ ‚ ©à¬ÛÊ ÷Ò¥‚ ∑§Ë ¬˝Õ◊∑§≈U«∏Ë “‹ÊÁ‹◊Ê” •ı⁄U ◊È⁄Uʸ ÷Ò¥‚ ∑§Ë ¬⁄UËÁˇÊà ‚¥ÃÁà ∑‘§ Á„◊Ë∑Χà flËÿ¸∑§Ë ∑§ÊÁÿ∑§ ∑§ÙÁ‡Ê∑§Ê ‚ ÄU‹ÙŸË∑Χà “⁄U¡Ã” ∑§Ê ¡ã◊ ©à‚Ê„flœ¸∑§ ⁄U„Ê–ªÙ¬‡ÊÈ•Ù¥ ∑§Ë Œ‚Ë ŸS‹Ù¥ ‚¥∑§Ù⁄UË, ’‹Ê„Ë •ı⁄U ◊ÁáʬÈÈ⁄UË; ªÙ¡⁄UË ÷Ò¥‚;„Á⁄UŸÉÊÊ≈UÊ ∑§Ê‹Ë ◊Ȫ˸ ÃÕÊ å‹ÄU≈˛Ê∞¥ÁÕÿÊ‚ ∞À∑§Ù∑§Ë •ı⁄U ¬ê»‘§Á⁄U‚ ‚⁄UÿÍ ¡Ò‚Ë ◊¿Á‹ÿÙ¥ ∑§ ªÈáÊÊ¥ ∑§Ê ‹ˇÊáÊ-fláʸŸ fl ‚¥⁄UˇÊáÊ ◊„àfl¬Íáʸ ©¬‹ÁéœÿÊ¥ „Ò¥–
当我尝试阅读另一个文件时 - https://www.surveyofindia.gov.in/documents/coi-hindi.pdf,我得到与上面类似的文本。
阅读非英文pdf的正确方法是什么?
我已经在问题描述中包含了我的尝试
问)阅读非英文pdf的正确方法是什么?
A) 取决于应用于文档的质量保证,在本例中没有。大多数县都有 DDA 或 508 等效文件,要求 PDF 为盲人计算机可读等。此文件尚未编码为可读。
选项是双重的