使用C ++将越南语字符编码为USASCII,ISO88591,UTF8,UTF16BE,UTF16LE,UTF16

问题描述 投票:0回答:2

我已经编辑了我的帖子。当前,我正在尝试对用户的输入字符串进行编码,然后将其转换为每种编码格式。我可以使用Unicode完美地做到这一点,而且我认为输入String的格式为UTF-8。如果我的inputString是“ Hello”。但是,当我尝试输入“Tôi”之类的字符串时,我不知道该怎么做。

    enum Encodings { USASCII, ISO88591, UTF8, UTF16BE, UTF16LE, UTF16, BIN, OCT, HEX };

    switch (Encodings)
        {
        case USASCII:
            ASCIIToHex(inputString, &ascii); //hello output 48656C6C6F
            return new ByteField(ascii.c_str());
        case ISO88591:
            ASCIIToHex(inputString, &ascii);//hello output 48656C6C6F
                                              //tôi output 54F469
            return new ByteField(ascii.c_str());
        case UTF8:
            ASCIIToHex(inputString, &ascii);//hello output 48656C6C6F
                                           //tôi output 54C3B469
            return new ByteField(ascii.c_str());
        case UTF16BE:
            ToUTF16(inputString, &ascii, Encodings);//hello output 00480065006C006C006F
                                                    //tôi output 005400F40069
            return new ByteField(ascii.c_str());
        case UTF16:
        ToUTF16(inputString, &ascii, Encodings);//hello output FEFF00480065006C006C006F
                                                //tôi output FEFF005400F40069
            return new ByteField(ascii.c_str());
        case UTF16LE:
            ToUTF16(inputString, &ascii, Encodings);//hello output 480065006C006C006F00
                                                    //tôi output 5400F4006900
            return new ByteField(ascii.c_str());
        }

void StringUtilLib::ASCIIToHex(std::string s, std::string * result)
{
    int n = s.length();
    for (int i = 0; i < n; i++)
    {
        unsigned char c = s[i];
        long val = long(c);
        std::string bin = "";
        while (val > 0)
        {
            (val % 2) ? bin.push_back('1') :
                bin.push_back('0');
            val /= 2;
        }
        reverse(bin.begin(), bin.end());
        result->append(ConvertBinToHex(bin));
    }
}

std::string ToUTF16(std::string s, std::string * result, int encodings) {
    int n = s.length();
    if (encodings == UTF16) {
        result->append("FEFF");
    }
    for (int i = 0; i < n; i++)
    {
        int val = int(s[i]);
        std::string bin = "";
        while (val > 0)
        {
            (val % 2) ? bin.push_back('1') :
                bin.push_back('0');
            val /= 2;
        }
        reverse(bin.begin(), bin.end());
        if (encodings == UTF16 || encodings == UTF16BE) {
            result->append("00" + ConvertBinToHex(bin));
        }
        if (encodings == UTF16LE) {
            result->append(ConvertBinToHex(bin) + "00");
        }

    }
}

std::string ConvertBinToHex(std::string str) {
    long long temp = atoll(str.c_str());
    int dec_value = 0;
    int base = 1;
    int i = 0;
    while (temp) {
        int last_digit = temp % 10;
        temp = temp / 10;
        dec_value += last_digit * base;
        base = base * 2;
    }
    char hexaDeciNum[10];
    while (dec_value != 0)
    {
        int temp = 0;
        temp = dec_value % 16;
        if (temp < 10)
        {
            hexaDeciNum[i] = temp + 48;
            i++;
        }
        else
        {
            hexaDeciNum[i] = temp + 55;
            i++;
        }
        dec_value = dec_value / 16;
    }
    str.clear();
    for (int j = i - 1; j >= 0; j--) {
        str = str + hexaDeciNum[j];
    }
    return str;
}
c++ unicode encoding c++14 utf
2个回答
1
投票

-64是À的正确表示形式,如果您使用带符号的char和CP1258。如果需要正数,则需要先强制转换为unsigned char

如果确实使用CP1258,则可能在Windows上。要将输入字符串转换为UTF-16,您可能要使用Windows平台API,例如MultiByteToWideChar,它接受代码页参数(当然,您必须使用正确的代码页)。另外,您可以尝试使用MultiByteToWideChar之类的标准功能,但在使用之前必须正确设置语言环境。

您可能会发现在整个应用程序中更容易切换到宽字符,并且避免大多数转码。

作为旁注,仅将整数转换为二进制以将其转换为十六进制不是显示整数的十六进制表示的简单有效的方法。


1
投票

这个问题还不清楚。要编码某些东西,您需要输入吗?因此,当您说“将越南字符编码为UTF8,UTF16”] >>转换为UTF-8 / 16之前,您的输入字符串是什么,编码是什么?您如何输入?从文件还是控制台?

为什么在地球上先转换为二进制然后转换为十六进制?您可以从字节直接打印为二进制和十六进制,而无需从二进制转换为十六进制。请注意,将其转换为二进制代码对于测试是很好的,但是在生产代码中效率非常低下。我也不知道您的意思是“但是如果我的字母是越南语字母的”Á“或”À“,我将无法获得它的价值”

。请显示mbstowcs以及输入/输出

但是我想您只想从源代码中的字符串文字(例如“ÁÀ”)输出UTF编码的字节。在那种情况下,它不被称为“编码字符串”,而仅仅是“输出字符串”

Unicode中的mbstowcsminimal, reproducible example都可以用Á(U + 00C1和U + 00C0)或À(A + U + 0301 ◌́ / U + 0300 represented)表示。您可以通过在Unikey中选择“ Unicode语法”

“ Unicode语法”在它们之间切换。假设您具有字符串文字形式的那些字符,然后precomposed characters包含一系列与源文件编码中的上述字母相对应的字节。因此,根据将* .cpp文件另存为(CP1252,CP1258,UTF-8 ...)的编码,输出字节值将有所不同

要强制执行UTF-8 / 16/32编码,只需分别使用combining charactersstd::string str = "ÁÀ"u8后缀以及正确的类型(uUchar8_tchar16_t /char32_t/ std::u8string

std::u16string

然后只需使用std::u32string获取基础缓冲区并打印字节。在C ++ 14中std::u8string utf8 = u8"ÁÀ"; std::u16string utf16 = u"ÁÀ"; std::u32string utf32 = U"ÁÀ"; 尚不可用,因此只需将文件另存为UTF-8并使用c_str()。同样,您可以直接从std::u8string读取std::string以打印用户输入字符串的编码

编辑:

要在UTF编码之间进行转换,请使用标准的std::u*stringstd::cinstd::codecvt ...

处理非Unicode编码比较棘手,需要一些外部库,例如std::codecvt或与操作系统有关的API

  • 在Windows上为[std::wstring_convertstd::wstring_convert]
  • [Linux上的std::codecvt_utf8_utf16
  • 仅限于ISO-8859-1,它很容易,但是您仍然需要许多查找表,并且没有办法在不丢失信息的情况下将其他编码转换为ASCII

© www.soinside.com 2019 - 2024. All rights reserved.