Java中的字节和字符转换

问题描述 投票:30回答:2

如果我将一个角色转换为byte然后再回到char,那个角色会神秘地消失并成为别的东西。这怎么可能?

这是代码:

char a = 'È';       // line 1       
byte b = (byte)a;   // line 2       
char c = (char)b;   // line 3
System.out.println((char)c + " " + (int)c);

直到第2行一切都很好:

  • 在第1行,我可以在控制台中打印“a”,它会显示“È”。
  • 在第2行,我可以在控制台中打印“b”,它会显示-56,即200因为字节已签名。 200是“È”。所以它仍然很好。

但第3行有什么不对? “c”成为别的东西,程序打印? 65480。这是完全不同的东西。

我应该在第3行写什么才能得到正确的结果?

java encoding unicode utf-16
2个回答
53
投票

Java中的字符是Unicode代码单元,被视为无符号数字。因此,如果你执行c = (char)b,你得到的值是2 ^ 16 - 56或65536 - 56。

或者更准确地说,首先在扩展转换中使用符号扩展将字节转换为带符号0xFFFFFFC8的有符号整数。然后,当转换为0xFFC8时,这反过来缩小到char,这转换为正数65480

从语言规范:

5.1.4. Widening and Narrowing Primitive Conversion

首先,通过扩展原语转换(第5.1.2节)将字节转换为int,然后通过缩小基元转换(第5.1.3节)将结果int转换为char。


为了得到正确的点,使用char c = (char) (b & 0xFF),它首先通过使用掩码将b的字节值转换为正整数200,将转换后的前24位置零:0xFFFFFFC8变为0x000000C8或小数点的正数200


以上是对byteintchar原始类型之间转换期间发生的事情的直接解释。

如果要从字节编码/解码字符,请使用CharsetCharsetEncoderCharsetDecoder或其中一种便捷方法,如new String(byte[] bytes, Charset charset)String#toBytes(Charset charset)。您可以从StandardCharsets获取字符集(例如UTF-8或Windows-1252)。


0
投票

new String(byteArray, Charset.defaultCharset())

这会将字节数组转换为java中的默认字符集。它可能会抛出异常,具体取决于您使用byteArray提供的内容。

© www.soinside.com 2019 - 2024. All rights reserved.