PDF文档语言检测

问题描述 投票:0回答:4

有没有办法获取PDF文档文本语言?

示例: 假设我有一些我不知道的语言的 PDF 文档,是否有任何工具可以让我有机会自动获取 PDF 文档语言并在文件中存储(或 ECHO)语言名称?

问候, 弗拉基米尔

.net pdf
4个回答
2
投票

基本上没有。 PDF 文件中没有任何内容可以保证告诉您该语言,并且从该文件中当然也没有任何可以简单获取可能有帮助的内容。

如果文件使用 CIDfonts,则关联的 CMap 可能会通过 CIDSystemInfo 中的排序键为您提供线索,但这通常只是“身份”的变体。

如果字体(CID 或常规)包含 ToUnicode CMap(很多都包含,但这不是必需的),那么您也许能够从 Unicode 值推断语言。



0
投票

如果您从 PDF 中提取文本,则可以使用 Google Translate API v2 来检测语言。不过,这是一项付费网络服务。


0
投票

izfr] LVkj gsYFk vykbZM ba';qjsal dafy- }kjk% 'kk[kk izca/kd egksn;] czkap vkWfQl& I ] 207] 'kkyhekj dkikZsjsV IsaVj] 8&ch] IkmFk rqdksxat] 银行Sj e- iz- 452001

© www.soinside.com 2019 - 2024. All rights reserved.