有没有办法获取PDF文档文本语言?
示例: 假设我有一些我不知道的语言的 PDF 文档,是否有任何工具可以让我有机会自动获取 PDF 文档语言并在文件中存储(或 ECHO)语言名称?
问候, 弗拉基米尔
基本上没有。 PDF 文件中没有任何内容可以保证告诉您该语言,并且从该文件中当然也没有任何可以简单获取可能有帮助的内容。
如果文件使用 CIDfonts,则关联的 CMap 可能会通过 CIDSystemInfo 中的排序键为您提供线索,但这通常只是“身份”的变体。
如果字体(CID 或常规)包含 ToUnicode CMap(很多都包含,但这不是必需的),那么您也许能够从 Unicode 值推断语言。
如果您从 PDF 中提取文本,则可以使用 Google Translate API v2 来检测语言。不过,这是一项付费网络服务。
izfr] LVkj gsYFk vykbZM ba';qjsal dafy- }kjk% 'kk[kk izca/kd egksn;] czkap vkWfQl& I ] 207] 'kkyhekj dkikZsjsV IsaVj] 8&ch] IkmFk rqdksxat] 银行Sj e- iz- 452001