如何使用标准 C++ 将 UTF-8 转换为 ANSI

问题描述 投票:0回答:5

我从数据库中读取了一些字符串,以 char* 和 UTF-8 格式存储(你知道,“á”被编码为 0xC3 0xA1)。但是,为了将它们写入文件,我首先需要将它们转换为 ANSI(无法将文件设为 UTF-8 格式...它只能以 ANSI 形式读取),这样我的“á”就不会成为一个”。是的,我知道一些数据将会丢失(中文字符,以及一般情况下 ANSI 代码页中没有的任何数据),但这正是我所需要的。

但问题是,我需要在各种平台上编译代码,因此它必须是标准 C++(即没有 Winapi,只有 stdlib、stl、crt 或任何具有可用源的自定义库)。

大家有什么建议吗?

c++ stl std crt
5个回答
15
投票

前几天,有人回答说如果我有一个C++11编译器,我可以试试这个:

#include <string>
#include <codecvt>
#include <locale>

string utf8_to_string(const char *utf8str, const locale& loc)
{
    // UTF-8 to wstring
    wstring_convert<codecvt_utf8<wchar_t>> wconv;
    wstring wstr = wconv.from_bytes(utf8str);
    // wstring to string
    vector<char> buf(wstr.size());
    use_facet<ctype<wchar_t>>(loc).narrow(wstr.data(), wstr.data() + wstr.size(), '?', buf.data());
    return string(buf.data(), buf.size());
}

int main(int argc, char* argv[])
{
    string ansi;
    char utf8txt[] = {0xc3, 0xa1, 0};

    // I guess you want to use Windows-1252 encoding...
    ansi = utf8_to_string(utf8txt, locale(".1252"));
    // Now do something with the string
    return 0;
}

不知道回复发生了什么,显然有人删除了它。但事实证明这是完美的解决方案。对于发帖的人,非常感谢,你应该得到 AC 和点赞!!


1
投票

如果您指的是 ASCII,只需丢弃设置了位 7 的任何字节,这将删除所有多字节序列。请注意,您可以创建更高级的算法,例如从“á”中删除重音,但这需要更多的工作。


0
投票

这应该有效:

#include <string>
#include <codecvt>

using namespace std::string_literals;

std::string to_utf8(const std::string& str, const std::locale& loc = std::locale{}) {
  using wcvt = std::wstring_convert<std::codecvt_utf8<char32_t>, char32_t>;
  std::u32string wstr(str.size(), U'\0');
  std::use_facet<std::ctype<char32_t>>(loc).widen(str.data(), str.data() + str.size(), &wstr[0]);
  return wcvt{}.to_bytes(wstr.data(),wstr.data() + wstr.size());
}

std::string from_utf8(const std::string& str, const std::locale& loc = std::locale{}) {
  using wcvt = std::wstring_convert<std::codecvt_utf8<char32_t>, char32_t>;
  auto wstr = wcvt{}.from_bytes(str);
  std::string result(wstr.size(), '0');
  std::use_facet<std::ctype<char32_t>>(loc).narrow(wstr.data(), wstr.data() + wstr.size(), '?', &result[0]);
  return result;
}

int main() {
  auto s0 = u8"Blöde C++ Scheiße äöü!!1Elf"s;
  auto s1 = from_utf8(s0);
  auto s2 = to_utf8(s1);

  return 0;
}

对于 VC++:

#include <string>
#include <codecvt>

using namespace std::string_literals;

std::string to_utf8(const std::string& str, const std::locale& loc = std::locale{}) {
  using wcvt = std::wstring_convert<std::codecvt_utf8<int32_t>, int32_t>;
  std::u32string wstr(str.size(), U'\0');
  std::use_facet<std::ctype<char32_t>>(loc).widen(str.data(), str.data() + str.size(), &wstr[0]);
  return wcvt{}.to_bytes(
    reinterpret_cast<const int32_t*>(wstr.data()),
    reinterpret_cast<const int32_t*>(wstr.data() + wstr.size())
  );
}

std::string from_utf8(const std::string& str, const std::locale& loc = std::locale{}) {
  using wcvt = std::wstring_convert<std::codecvt_utf8<int32_t>, int32_t>;
  auto wstr = wcvt{}.from_bytes(str);
  std::string result(wstr.size(), '0');
  std::use_facet<std::ctype<char32_t>>(loc).narrow(
    reinterpret_cast<const char32_t*>(wstr.data()),
    reinterpret_cast<const char32_t*>(wstr.data() + wstr.size()),
    '?', &result[0]);
  return result;
}

int main() {
  auto s0 = u8"Blöde C++ Scheiße äöü!!1Elf"s;
  auto s1 = from_utf8(s0);
  auto s2 = to_utf8(s1);

  return 0;
}

0
投票
#include <stdio.h>
#include <string>
#include <codecvt>
#include <locale>
#include <vector>

using namespace std;
std::string utf8_to_string(const char *utf8str, const locale& loc){
    // UTF-8 to wstring
    wstring_convert<codecvt_utf8<wchar_t>> wconv;
    wstring wstr = wconv.from_bytes(utf8str);
    // wstring to string
    vector<char> buf(wstr.size());
    use_facet<ctype<wchar_t>>(loc).narrow(wstr.data(), wstr.data() + wstr.size(), '?', buf.data());
    return string(buf.data(), buf.size());
}

int main(int argc, char* argv[]){
    std::string ansi;
    char utf8txt[] = {0xc3, 0xa1, 0};

    // I guess you want to use Windows-1252 encoding...
    ansi = utf8_to_string(utf8txt, locale(".1252"));
    // Now do something with the string
    return 0;
}

0
投票

基于 codecvt 的转换在 c++17 中已被弃用,并且可能已从 c++20 或 c++23 中删除。

看起来还没有提出替代方案,但使用 codecvt 专用转换器(包括 wstring_convert、wbuffer_convert)可能会产生问题,因此已被弃用。现在取决于应用程序和消费者来决定使用此 API 或本机 API 进行转换。

当前建议使用本机 API。例如, Windows 中的 WideCharToMultiByte 和 MultiByteToWideChar。

© www.soinside.com 2019 - 2024. All rights reserved.