如何使用标准 C++ 将 UTF-8 转换为 ANSI

Question

我从数据库中读取了一些字符串，以 char* 和 UTF-8 格式存储（你知道，“á”被编码为 0xC3 0xA1）。但是，为了将它们写入文件，我首先需要将它们转换为 ANSI（无法将文件设为 UTF-8 格式...它只能以 ANSI 形式读取），这样我的“á”就不会成为一个”。是的，我知道一些数据将会丢失（中文字符，以及一般情况下 ANSI 代码页中没有的任何数据），但这正是我所需要的。

但问题是，我需要在各种平台上编译代码，因此它必须是标准 C++（即没有 Winapi，只有 stdlib、stl、crt 或任何具有可用源的自定义库）。

大家有什么建议吗？

Answer 1

前几天，有人回答说如果我有一个C++11编译器，我可以试试这个：

#include <string>
#include <codecvt>
#include <locale>

string utf8_to_string(const char *utf8str, const locale& loc)
{
    // UTF-8 to wstring
    wstring_convert<codecvt_utf8<wchar_t>> wconv;
    wstring wstr = wconv.from_bytes(utf8str);
    // wstring to string
    vector<char> buf(wstr.size());
    use_facet<ctype<wchar_t>>(loc).narrow(wstr.data(), wstr.data() + wstr.size(), '?', buf.data());
    return string(buf.data(), buf.size());
}

int main(int argc, char* argv[])
{
    string ansi;
    char utf8txt[] = {0xc3, 0xa1, 0};

    // I guess you want to use Windows-1252 encoding...
    ansi = utf8_to_string(utf8txt, locale(".1252"));
    // Now do something with the string
    return 0;
}

不知道回复发生了什么，显然有人删除了它。但事实证明这是完美的解决方案。对于发帖的人，非常感谢，你应该得到 AC 和点赞！！

Answer 2

如果您指的是 ASCII，只需丢弃设置了位 7 的任何字节，这将删除所有多字节序列。请注意，您可以创建更高级的算法，例如从“á”中删除重音，但这需要更多的工作。

Answer 3

这应该有效：

#include <string>
#include <codecvt>

using namespace std::string_literals;

std::string to_utf8(const std::string& str, const std::locale& loc = std::locale{}) {
  using wcvt = std::wstring_convert<std::codecvt_utf8<char32_t>, char32_t>;
  std::u32string wstr(str.size(), U'\0');
  std::use_facet<std::ctype<char32_t>>(loc).widen(str.data(), str.data() + str.size(), &wstr[0]);
  return wcvt{}.to_bytes(wstr.data(),wstr.data() + wstr.size());
}

std::string from_utf8(const std::string& str, const std::locale& loc = std::locale{}) {
  using wcvt = std::wstring_convert<std::codecvt_utf8<char32_t>, char32_t>;
  auto wstr = wcvt{}.from_bytes(str);
  std::string result(wstr.size(), '0');
  std::use_facet<std::ctype<char32_t>>(loc).narrow(wstr.data(), wstr.data() + wstr.size(), '?', &result[0]);
  return result;
}

int main() {
  auto s0 = u8"Blöde C++ Scheiße äöü!!1Elf"s;
  auto s1 = from_utf8(s0);
  auto s2 = to_utf8(s1);

  return 0;
}

对于 VC++：

#include <string>
#include <codecvt>

using namespace std::string_literals;

std::string to_utf8(const std::string& str, const std::locale& loc = std::locale{}) {
  using wcvt = std::wstring_convert<std::codecvt_utf8<int32_t>, int32_t>;
  std::u32string wstr(str.size(), U'\0');
  std::use_facet<std::ctype<char32_t>>(loc).widen(str.data(), str.data() + str.size(), &wstr[0]);
  return wcvt{}.to_bytes(
    reinterpret_cast<const int32_t*>(wstr.data()),
    reinterpret_cast<const int32_t*>(wstr.data() + wstr.size())
  );
}

std::string from_utf8(const std::string& str, const std::locale& loc = std::locale{}) {
  using wcvt = std::wstring_convert<std::codecvt_utf8<int32_t>, int32_t>;
  auto wstr = wcvt{}.from_bytes(str);
  std::string result(wstr.size(), '0');
  std::use_facet<std::ctype<char32_t>>(loc).narrow(
    reinterpret_cast<const char32_t*>(wstr.data()),
    reinterpret_cast<const char32_t*>(wstr.data() + wstr.size()),
    '?', &result[0]);
  return result;
}

int main() {
  auto s0 = u8"Blöde C++ Scheiße äöü!!1Elf"s;
  auto s1 = from_utf8(s0);
  auto s2 = to_utf8(s1);

  return 0;
}

Answer 4

#include <stdio.h>
#include <string>
#include <codecvt>
#include <locale>
#include <vector>

using namespace std;
std::string utf8_to_string(const char *utf8str, const locale& loc){
    // UTF-8 to wstring
    wstring_convert<codecvt_utf8<wchar_t>> wconv;
    wstring wstr = wconv.from_bytes(utf8str);
    // wstring to string
    vector<char> buf(wstr.size());
    use_facet<ctype<wchar_t>>(loc).narrow(wstr.data(), wstr.data() + wstr.size(), '?', buf.data());
    return string(buf.data(), buf.size());
}

int main(int argc, char* argv[]){
    std::string ansi;
    char utf8txt[] = {0xc3, 0xa1, 0};

    // I guess you want to use Windows-1252 encoding...
    ansi = utf8_to_string(utf8txt, locale(".1252"));
    // Now do something with the string
    return 0;
}

Answer 5

基于 codecvt 的转换在 c++17 中已被弃用，并且可能已从 c++20 或 c++23 中删除。

看起来还没有提出替代方案，但使用 codecvt 专用转换器（包括 wstring_convert、wbuffer_convert）可能会产生问题，因此已被弃用。现在取决于应用程序和消费者来决定使用此 API 或本机 API 进行转换。

当前建议使用本机 API。例如， Windows 中的 WideCharToMultiByte 和 MultiByteToWideChar。

如何使用标准 C++ 将 UTF-8 转换为 ANSI

问题描述投票：0回答：5

5个回答

最新问题

如何使用标准 C++ 将 UTF-8 转换为 ANSI

问题描述 投票：0回答：5

5个回答

最新问题

问题描述投票：0回答：5