我如何将带有混合unicode表示和unicode转为字节的文本文件?

问题描述 投票:0回答:1

我有一个文本文件,其中包含有数据行(键值对)。

"\x80\x80\x13_@\x80":"\xff\xff\x80Sometext\x56\"\x64\u0001(more bytes with unicode reprsentation and unicode and latin symbols)\xfdg\u0080moretext\x30中\x52\x23\x24P" (也许是 \U00000000 (不确定))

(实际上是混合的,我很难理解如何将其转换为字节格式,因为我需要从文件中读取数据。

当我以字节格式读取时,我很难理解如何处理它。如果我以文本格式读取,它前面有两个\。

(这是一个来自golangleveldb的dump,我想把它拆开来提取wav数据)。

python unicode byte
1个回答
1
投票

如果它是一个字符串(或者在py2中是unicode),你可以直接调用 my_string.encode("utf8") 因为我相信unicode中的所有字符都可以用utf8来表示(注意不是所有的字节都可以用utf8来表示,所以如果你有奇怪的随机二进制数据在里面,可能就不会有这么好的效果)

如果它已经是以字节为单位,那就更难了......你真的需要知道适当的编码。

© www.soinside.com 2019 - 2024. All rights reserved.