UTF-8 解码器无法解码编码字符串

问题描述 投票:0回答:1

我有一些编码值,我认为它们是 UTF-8。现在我真的不知道它是否是 UTF-8,因为其他在线工具和解码 UTF-8 的步骤不起作用,但可用的开源工具是唯一适合我的工具。实际的纯文本将是韩语。

现在的问题是该工具无法处理超过 100 个单词或更大的字符串,而且即使处理 50-60 个单词左右也需要很多时间。由于该工具是开源的,如果可能的话,我想在本地系统上运行该工具,这样也许我可以更快地工作,或者没有任何字符限制。

工具链接:- https://software.hixie.ch/utilities/cgi/unicode-decoder/utf8-decoder 您还可以检查此工具的父目录(通过从 URL 中删除当前位置返回到上一个目录),其中还存在其他文件,例如库或其他文件。

我想了解为什么互联网上的所有其他解码器都不能针对我的字符串工作,而只有这个工具能够取得成功?如果可能的话,我怎样才能在本地运行这个工具。我有大量数据。

这是示例数据。

  1. 박서연
  2. ê1 €ì ìž
  3. 유ì€ì„œ
  4. ë°•ë́¸ì—°
  5. ê¹€ë́́ì́
  6. ê¹€ë́́ì́
  7. ì´íšì§„
  8. 최유뤈
  9. ë°•ë́¸ì—°
  10. 유ì€ì„œ
encoding utf-8 character-encoding decode
1个回答
0
投票

我想了解为什么互联网上的所有其他解码器都不能专门针对我的字符串工作,而只有这个工具能够取得成功?

因为这个工具有一个特殊的模式来处理错误编码的数据。正如它在您几乎肯定使用的模式中所指出的那样:

UTF-8 解释为 Windows-1252

原始 UTF-8 编码文本,但解释为 Windows-1252。例如,如果您的源查看器仅支持 Windows-1252,但页面编码为 UTF-8,您可以从源查看器中选择文本,将其粘贴到此处,然后查看字符到底是什么。

等效的

iconv
命令为:

$ echo 박서연 | iconv -t windows-1252
박서연

如果您想要该网站的源代码,它是 Perl 语言版本,可在 https://software.hixie.ch/utilities/cgi/unicode-decoder/utf8-decoder.pl 获取。这是一个相当短的函数,您可以取出 HTML/CGI 代码并将字符串传递给它。

© www.soinside.com 2019 - 2024. All rights reserved.