wchar_t到unsigned char转换

问题描述 投票:2回答:1

我有一个代码实现以下内容:

unsigned char charStr; //this var can only take a value either 0, 1, or 2
WCHAR wcharStr;
...
charStr = wcharStr - '0';
...

我知道在从Unicode(wchar_t数据类型)转换为ANSI(unsigned char)时可能会丢失一些数据(从16位到8位)。但是,有人可以解释为什么减去'0'使这种转换正确吗?

c++ c unicode ansi
1个回答
6
投票

C和C ++语言标准要求从09的数字编码是连续的。因此,减去'4' - '0',例如,将获得4

wchar_t实际上并不需要这样,但在现实世界中,您的编译器会将其映射到Unicode,Windows上为UTF-16,其他地方为UCS-4。 Unicode的前128个代码点与ASCII相同。您没有在使用非ASCII字符集的现代真实编译器上编译此代码(IBM的Z系列大型机,为了向后兼容而默认为代码页1047),因此您的编译器会转换您的wchar_tchar一些整数类型,可能是32位宽,减去并获得一个数字值。然后它将它存储在unsigned char类型的变量中,这是一个错误,因为它实际上是一个不可打印的控制字符的ASCII值。

此代码不正确。如果你想从wchar_t转换为char,你应该使用STL的codecvt或C标准库中的wcrtomb()。当且仅当可能时,还有一个wctob()转换为单个字节。在使用之前设置您的语言环境。

如果你确定你的wchar_t拥有Unicode,你的unsigned char持有Latin-1,并且你的值在范围内,但是,你可以简单地将wchar_t值转换为(unsigned char)。另一种方法,如果你知道你有一个数字,就是写(charStr - L'0') + '0'

© www.soinside.com 2019 - 2024. All rights reserved.