这是捷克语的罕见字符编码吗?

问题描述 投票:0回答:2

我最近在多个文件中下载了千兆字节的数据(文本),我想自动处理这些文件。但是,文本的字符集或实际编码是错误的。问题是 Notepad++、SublimeText 3 或 Word 等文本编辑器将其简单地检测为 ANSI。我已经尝试了所有可用的字符集,但文件中仍然有部分不正确。

默认ANSI编码(错误的特殊字符):

OBJEVUJE SE ZELENÁ KNÍ®KA

Frantík Severýn sedí na prázdných bednách od cukru, pohupuje bosýma nohama a naslouchá kázání páně Bočanovu。 Kázání nepatří jemu, nýbrľ paní Bílkové,která stojí před pultem。 Frantík se tváří, jako by se 请勿将其关闭。扎蒂姆·瓦克 napíná uąi, aby mu neuąlo ani slovíčko.

»Tak to dál nepůjde, milá paní,« křičí hokynář a jeho tlustý zátylek je rudý zlostí。 »Jedno zboľí nezaplatíte a uľ zas chcete nové na dluh。 Copak si myslíte, ľe kradu?«

ISO 8859-2编码(引号错误):

OBJEVUJE SE ZELENÁ KNÍŽKA

Frantík Severýn sedí na prázdných bednách od cukru, pohupuje bosýma nohama a naslouchá kázání páně Bočanovu。 Kázání nepatří jemu, nýbrž paní Bílkové,která stojí před pultem。 Frantík se tváří, jako by se 请勿将其关闭。扎蒂姆·沃沙克 napíná uši, aby mu neušlo ani slovíčko.

ťTak to dál nepůjde, milá paní,Ť křičí hokynář a jeho tlustý zátylek je rudý zlostí。 ťJedno zboží nezaplatíte a už zas chcete nové na dluh。 Copak si myslíte, že kradu?Ť

期望的输出:

OBJEVUJE SE ZELENÁ KNÍŽKA

Frantík Severýn sedí na prázdných bednách od cukru, pohupuje bosýma nohama a naslouchá kázání páně Bočanovu。 Kázání nepatří jemu, nýbrž paní Bílkové,která stojí před pultem。 Frantík se tváří, jako by se 请勿将其关闭。扎蒂姆·沃沙克 napíná uši, aby mu neušlo ani slovíčko.

»Tak to dál nepůjde, milá paní,« křičí hokynář a jeho tlustý zátylek je rudý zlostí。 »Jedno zboží nezaplatíte a už zas chcete nové na dluh。 Copak si myslíte, že kradu?«

这是什么字符编码?

读完this后,我怀疑它可能是较旧的/遗留的,但我不确定如何修复它,因为我不知道任何支持它的软件。另一种选择是它可能只是损坏,因为所有引号似乎都被编码为 ť/Ť。我如何验证这一点?

编辑:十六进制信息:

KNͮKA = 4B 4E CD AE 4B 41
»Tak to dál nepůjde = BB 54 61 6B 20 74 6F 20 64 E1 6C 20 6E 65 70 F9 6A 64 65
co má chu» vstát = 63 6F 20 6D E1 20 63 68 75 BB 20 76 73 74 E1 74
character-encoding
2个回答
0
投票

使用 UTF-8,而不是 ascii,不是 iso-...,不是拉丁语...

latin1 很接近,但错过了

ř

你说它是“下载的”。您能向我们展示相关字符的十六进制吗?

»Žřč
转换为十六进制:
UTF-8 中的
C2BB C5BD C599 C48D
——唯一可以处理所有字符的
拉丁语中的
BB 8E 3F 3F
1
BB 8E F8 3F
cp1250
拉丁语
3F AE F8 E8

注:3F是
?
,意思是转换问题。

十六进制

BB
在 latin2 中是
ť


0
投票

可能是https://en.wikipedia.org/wiki/Code_page_852

至少看起来它有所有必需的字符

© www.soinside.com 2019 - 2024. All rights reserved.