我正在尝试用java创建一个测试用例来测试
decoder.onMalformedInput(CodingErrorAction.REPLACE);
decoder.onUnmappableCharacter(CodingErrorAction.REPLACE);
我需要 UTF_8 字符集中的一些字符来测试它们。
UTF-8 几乎可以表示任何字符。
如果您询问 UTF-8 内容样本是否可能格式错误,是的,确实可能。
任何未包含在 UTF_8 字符集中的字符
您正在混淆两种不同的事物:
是一个字符集,旨在代表所有现存语言和最具学术意义的已消亡语言的字符。 Unicode 是所有其他字符集组合的超集。目前 Unicode 已识别超过 140,000 个字符。每个字符都分配有一个从零到略多于一百万的数字。
UTF-8是一种字符编码,使用一个或多个八位位组来表示每个分配的数字。 UTF-8 可以表示 Unicode 可分配的超过一百万个可能数字中的任何一个。 因此,您很难找到地球上大多数民族所使用的尚未在 Unicode 中列出的字符。所有这些字符都可以用 UTF-8 编码。