UTF-8 内容在 Java 中是否可能格式错误

Question

我正在尝试用java创建一个测试用例来测试

decoder.onMalformedInput(CodingErrorAction.REPLACE);
decoder.onUnmappableCharacter(CodingErrorAction.REPLACE);

我需要 UTF_8 字符集中的一些字符来测试它们。

Answer 1

tl；博士

UTF-8 几乎可以表示任何字符。

如果您询问 UTF-8 内容样本是否可能格式错误，是的，确实可能。

任何未包含在 UTF_8 字符集中的字符

您正在混淆两种不同的事物：

字符集是字符的集合，每个字符都由一个称为“代码点”的指定数字进行标识。该集合可能包含单一人类语言或多种人类语言的字符。字符编码是一种通过记录文本中字符的代码点的位和字节来表示特定字符集的某些文本的方法。

Unicode

是一个字符集，旨在代表所有现存语言和最具学术意义的已消亡语言的字符。 Unicode 是所有其他字符集组合的超集。目前 Unicode 已识别超过 140,000 个字符。每个字符都分配有一个从零到略多于一百万的数字。

UTF-8

是一种字符编码，使用一个或多个八位位组来表示每个分配的数字。 UTF-8 可以表示 Unicode 可分配的超过一百万个可能数字中的任何一个。因此，您很难找到地球上大多数民族所使用的尚未在 Unicode 中列出的字符。所有这些字符都可以用 UTF-8 编码。