utf-16 相关问题

UTF-16是一种字符编码,表示每个字符使用2或4个字节的Unicode代码点。

将 UTF-16 转换为 UTF-8 并删除 BOM?

我们有一个数据输入人员,他在 Windows 上使用 UTF-16 编码,希望使用 utf-8 并删除 BOM。 utf-8 转换有效,但 BOM 仍然存在。我该如何删除这个?这就是……

回答 3 投票 0

使用 fwrite 将 UTF-16 直接写入 stdout 不符合预期

我试图弄清楚如何直接以 UTF-16 模式(不使用 wprintf)写入控制台,作为另一个问题解决方案的一部分,并且想首先直接在 C 中执行此操作。这是一个例子...

回答 1 投票 0

使用 Rust 将控制台类型更改为 UTF-16

我想在rust中将控制台模式设置为UTF-16以打印出UTF-16(不带宏)。将文本从 UTF-16 转换为 UTF-8 不适用于我当前的用例。这对 L 来说效果很好...

回答 1 投票 0

c# 对字符串使用 UTF-8 还是 UTF-16?

更准确地说,最新版本的c#(c#12(.NET 8.0)),它对字符串使用UTF-8还是UTF-16? 我很困惑,因为: https://learn.microsoft.com/en-us/dotnet/standard/base-types/character-

回答 1 投票 0

Cypresss 无法在浏览器启动时加载 UTF-16 网站

我在头块中使用元标记字符集作为 UTF-16 创建了网站 因此,如果我在 Chrome 上手动检查我的网站,数据加载正常,但是当尝试...

回答 1 投票 0

char8_t 和 char16_t 的大小是动态的吗?

这是我所知道的: “UTF-8 是一种用于电子通信的可变长度字符编码标准。” 同样,UTF-16 是一种可变长度字符编码。 这就是我的

回答 1 投票 0

如何将表情符号与 R 正则表达式匹配?

我想确定向量中的哪些元素包含表情符号: x = c('😂', '不', '🍹', '😀', '不', '😛', '䨺', '감사') X # [1]“\U0001f602”“否”“\U0001f379”“\U0001f600”“否”“\U0001...

回答 1 投票 0

Emoji 值范围

我试图从字符串中取出所有表情符号(就像消毒剂一样)。但我找不到完整的表情符号值集。 完整的表情符号字符的 UTF16 值是多少?

回答 7 投票 0

如何在 Haskell 中确定文件文本编码而不使用 openFile 获取句柄?

问题是 openFile 假定 UTF-8 并且句柄返回该编码作为编码。 真正的问题是我正在获取(由学生)提交的以 UTF-16LE 编码的文件,我想要识别这些文件,s...

回答 1 投票 0

在内存不饱和的情况下将巨大的nvarchar(max)读取为UTF-16流

我正在开发一个程序,该程序从 sql server nvarchar(max) 字段读取文本,并需要将其写入 zip 内的 UTF-16 文本文件。 我无法加载字段中包含的字符串,因为它的重量为 &g...

回答 1 投票 0

BMP 之外的 JavaScript 字符串

BMP 是基本多语言平面 根据 JavaScript:好的部分: JavaScript 是在 Unicode 是 16 位字符集的时候构建的,因此 JavaScript 中的所有字符都是 16 位 w...

回答 5 投票 0

在 JavaScript 中,有没有办法迭代字符串的词汇标记?

鉴于我从端点收到的这个字符串: “\u0000\u0000\u0000\u001A% 鉴于我从端点收到的这个字符串: "\u0000\u0000\u0000\u001A%<some-random-text\fcdtoolHxxx1-34e3-4069-b97c-xxxxxxxxxxx\u001E\n" 我想迭代字符串以转义以 \u 开头的每个序列。结果字符串将是: "\\u0000\\u0000\\u0000\\u001A%<some-random-text\fcdtoolHxxx1-34e3-4069-b97c-xxxxxxxxxxx\\u001E\n" 注意 \f 和 \n 没有被转义。那么,我怎样才能只转义那些 \u 序列呢? 使用像这样的正则表达式是行不通的,因为序列 \f 和 \n 也会被替换,但它们应该保持不变。 function escapeUnicode(str: string) { return s.replace(/[\u0000-\u001F]/gu, function (chr) { return "\\u" + ("0000" + chr.charCodeAt(0).toString(16)).slice(-4); }); } 有String.raw,但除非您将字符串作为文字传递,否则它将不起作用。例如,在下面的代码中,我可以将其用作文字: let s = String.raw`\u0000\u0000\u0000\u001A%<deployment-deploymentStepStart\fcdtoolHb3dccc41-8cf0-4069`; var escaped = String.raw``; for (let i = 0, j = i + 1; i < s.length - 1; i++,j=i+1) { let curChar = String.fromCharCode(s.charCodeAt(i)); let nextChar = String.fromCharCode(s.charCodeAt(j)); if (curChar === "\\" && nextChar === "u") { escaped += String.raw`\\u`; i++; } else { escaped += curChar; } } escaped += String.fromCharCode(s.charCodeAt(s.length - 1)); console.log(escaped); 但正如我上面提到的,文本来自端点,因此如果我们将其存储在变量中,然后尝试执行相同的 for 循环,它将不起作用。 let someVariable = "\u0000\u0000\u0000\u001A%<deployment-deploymentStepStart\fcdtoolHb3dccc41-8cf0-4069" let s = String.raw({raw: someVariable}); // ... rest of the code above 您可以使用 JSON.stringify 来实现这一点: var examplestring = `\u0000\u0000\u0000\u001A%<some-random-text\fcdtoolHxxx1-34e3-4069-b97c-xxxxxxxxxxx\u001E\n` //basic example console.log(examplestring) console.log(JSON.stringify(examplestring)) console.log(JSON.stringify(examplestring).replaceAll('\\u','\\\\u')) //using your example code: var s = JSON.stringify(examplestring); var escaped = String.raw``; for (let i = 0, j = i + 1; i < s.length - 1; i++,j=i+1) { let curChar = String.fromCharCode(s.charCodeAt(i)); let nextChar = String.fromCharCode(s.charCodeAt(j)); if (curChar === "\\" && nextChar === "u") { escaped += String.raw`\\u`; i++; } else { escaped += curChar; } } escaped += String.fromCharCode(s.charCodeAt(s.length - 1)); console.log(escaped); 这是 String.raw 的更简单的正则表达式 const escapeUnicode = (str) =>str.replace(/\u([\da-fA-F]{4})/g, (match, grp) => `\\u${grp}`) console.log(escapeUnicode(String.raw`\u0000\u0000\u0000\u001A%<some-random-text\fcdtoolHxxx1-34e3-4069-b97c-xxxxxxxxxxx\u001E\n`))

回答 2 投票 0

在 Rich Edit 控件中迭代 WCHAR

我正在使用 Rich Edit 控件,并且想要迭代其中的 WCHAR 值。 我写了这个例程: int GetCharacterAtIndex(int pos) const { 文本范围 tr{}; tr.chrg.cpMin ...

回答 1 投票 0

使用经典 ASP 导致 MySQL 崩溃的表情符号

我有一个旧网站,访问者可以在其中添加评论。到目前为止,它一直运作良好,访客不多(针对小众受众)。它是用经典 ASP 构建的,并且使用 MySQ...

回答 2 投票 0

C 中将 UTF8 4 字节字符串转换为 UTF16 字符串的算法

我需要在C中将UTF8 4字节字符串转换为UTF16字符串。 我不允许使用任何外部库来支持它。我已经定义了一个宏来支持 UTF8 3 字节到

回答 1 投票 0

如何解码UTF-8文本序列\ud83e\udd14

我正在阅读包含“\ud83e\udd14”的 UTF-8 文本。阅读规范,它说未使用 U+D800 至 U+DFFF。然而,如果我通过解码器(例如 Microsoft 的 System.Web.Helper)运行它...

回答 3 投票 0

lxml解析xml,缺少根错误

我正在尝试解析一个xml文件,以便我可以操作其中包含的数据。 它有 900 万行,所以我不会发布它。 这是我的代码: 从 lxml 导入 etree 解析器 = etree.XMLPar...

回答 1 投票 0

相当于 UTF-16 的 MemorySegment.getUtf8String

我正在使用 JDK 19 中的外部函数和内存 API ([JEP 424][1]) 将基于 JNA 的库移植到“纯”Java。 我的库处理的一个常见用例是读取(空终止)S...

回答 2 投票 0

防止Jsoup将utf-8转换为utf-16

我希望以下内容按照提供的方式返回编码的项目符号点: Jsoup.parse("•").text() 但我却得到了一个 utf-16 字符串...

回答 1 投票 0

将特殊字符串转换为 std::wstring c++

我定义了一个 const char* s = "\u0633\u0644\u0627\u0645" ,它应该被翻译为 std::wstring 作为 L"Sham" 。我该如何执行此转换?换句话说,我需要一些东西

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.