我不知道如何将越南字符编码为UTF-8。仅当我将无越南字符编码为UTF-8时,此方法才有效。
首先,我将char编码为二进制,然后将其转换为十六进制。但是,当我尝试编码不是越南语的字符时,我无法获得我期望的值。例如,当我对字母“ A”进行编码时,将使它的编码值在Binary中为1000001,在Hex中为41,这是正确的。但是,如果我的字母是越南语字母的“Á”或“À”怎么办,我无法得到它的价值。
int n = inputString.length();
for (int i = 0; i < n; i++)
{
long val = long(inputString[i]);
std::string bin = "";
while (val > 0)
{
(val % 2) ? bin.push_back('1') :
bin.push_back('0');
val /= 2;
}
reverse(bin.begin(), bin.end());
}
-64是À的正确表示形式,如果您使用带符号的char和CP1258。如果需要正数,则需要先强制转换为unsigned char
。
如果确实使用CP1258,则可能在Windows上。要将输入字符串转换为UTF-16,您可能要使用Windows平台API,例如MultiByteToWideChar
,它接受代码页参数(当然,您必须使用正确的代码页)。另外,您可以尝试使用MultiByteToWideChar
之类的标准功能,但在使用之前必须正确设置语言环境。
您可能会发现在整个应用程序中更容易切换到宽字符,并且避免大多数转码。
作为旁注,仅将整数转换为二进制以将其转换为十六进制不是显示整数的十六进制表示的简单有效的方法。
这个问题还不清楚。要编码某些东西,您需要输入吗?因此,当您说“将越南字符编码为UTF8,UTF16”] >>转换为UTF-8 / 16之前,您的输入字符串是什么,编码是什么?您如何输入?从文件还是控制台?
为什么在地球上先转换为二进制然后转换为十六进制?您可以从字节直接打印为二进制和十六进制,而无需从二进制转换为十六进制。请注意,将其转换为二进制代码对于测试是很好的,但是在生产代码中效率非常低下。我也不知道您的意思是“但是如果我的字母是越南语字母的”Á“或”À“,我将无法获得它的价值”
。请显示mbstowcs
以及输入/输出但是我想您只想从源代码中的字符串文字(例如“ÁÀ”)输出UTF编码的字节。在那种情况下,它不被称为“编码字符串”,而仅仅是“输出字符串”
Unicode中的mbstowcs
和minimal, reproducible example都可以用Á
(U + 00C1和U + 00C0)或À
(A + U + 0301 ◌́ / U + 0300 represented)表示。您可以通过在Unikey中选择“ Unicode语法”
要强制执行UTF-8 / 16/32编码,只需分别使用combining characters,std::string str = "ÁÀ"
和u8
后缀以及正确的类型(u
,U
,char8_t
或char16_t
/char32_t
/ std::u8string
)
std::u16string
然后只需使用
std::u32string
获取基础缓冲区并打印字节。在C ++ 14中std::u8string utf8 = u8"ÁÀ"; std::u16string utf16 = u"ÁÀ"; std::u32string utf32 = U"ÁÀ";
尚不可用,因此只需将文件另存为UTF-8并使用c_str()
。同样,您可以直接从std::u8string
读取std::string
以打印用户输入字符串的编码
要在UTF编码之间进行转换,请使用标准的std::u*string
,std::cin
,std::codecvt
...
处理非Unicode编码比较棘手,需要一些外部库,例如std::codecvt
或与操作系统有关的API
std::wstring_convert
和std::wstring_convert
]std::codecvt_utf8_utf16
仅限于ISO-8859-1,它很容易,但是您仍然需要许多查找表,并且没有办法在不丢失信息的情况下将其他编码转换为ASCII