虽然 R 似乎在内部可以很好地处理 Unicode 字符,但我无法在 R 中输出具有此类 UTF-8 Unicode 字符的数据帧。有什么办法可以强制执行吗?
data.frame(c("hīersumian","ǣmettigan"))->test
write.table(test,"test.txt",row.names=F,col.names=F,quote=F,fileEncoding="UTF-8")
输出文本文件内容如下:
hiersumian <U+01E3>mettigan
我在 Windows 环境(Windows 7)中使用 R 版本 3.0.2。
编辑
答案中指出,R 正在以 UTF-8 正确写入文件,问题出在我用来查看文件的软件上。这是我在 R 中执行所有操作的一些代码。我正在读取以 UTF-8 编码的文本文件,并且 R 可以正确读取它。然后 R 以 UTF-8 格式写出文件并再次读入,现在正确的 Unicode 字符消失了。
read.table("myinputfile.txt",encoding="UTF-8")->myinputfile
myinputfile[1,1]
write.table(myinputfile,"myoutputfile.txt",row.names=F,col.names=F,quote=F,fileEncoding="UTF-8")
read.table("myoutputfile.txt",encoding="UTF-8")->myoutputfile
myoutputfile[1,1]
控制台输出:
> read.table("myinputfile.txt",encoding="UTF-8")->myinputfile
> myinputfile[1,1]
[1] hīersumian
Levels: hīersumian ǣmettigan
> write.table(myinputfile,"myoutputfile.txt",row.names=F,col.names=F,quote=F,fileEncoding="UTF-8")
> read.table("myoutputfile.txt",encoding="UTF-8")->myoutputfile
> myoutputfile[1,1]
[1] <U+FEFF>hiersumian
Levels: <U+01E3>mettigan <U+FEFF>hiersumian
>
这个“答案”的目的是澄清幕后发生了一些奇怪的事情:
“hīersumian”似乎甚至没有进入数据框。 “ī”符号在所有情况下都会转换为“i”。
options("encoding" = "native.enc")
t1 <- data.frame(a = "hīersumian ")
t1
# a
# 1 hiersumian
options("encoding" = "UTF-8")
t1 <- data.frame(a = "hīersumian ")
t1
# a
# 1 hiersumian
options("encoding" = "UTF-16")
t1 <- data.frame(a = "hīersumian ")
t1
# a
# 1 hiersumian
以下序列成功将“ǣmettigan”写入文本文件:
t2 <- data.frame(a = "ǣmettigan")
getOption("encoding")
# [1] "native.enc"
Encoding(t2[,"a"]) <- "UTF-16"
write.table(t2,"test.txt",row.names=F,col.names=F,quote=F)
它不适用于“编码”为“UTF-8”或“UTF-16”,并且指定“fileEncoding”将导致缺陷或无输出。
有点令人失望,因为到目前为止我设法以某种方式解决了所有 Unicode 问题。
我可能缺少一些特定于操作系统的内容,但是
data.table
似乎对此没有问题(或者更可能是对 R 内部结构的更新,因为这个问题最初是提出的):
t1 = data.table(a = c("hīersumian", "ǣmettigan"))
tmp = tempfile()
fwrite(t1, tmp)
system2('cat', tmp)
# a
# hīersumian
# ǣmettigan
fread(tmp)
# a
# 1: hīersumian
# 2: ǣmettigan
我发现一篇博客文章基本上说明了它的 Windows 文本编码方式。帖子中有更多详细信息。用户应该使用
以二进制形式写入文件writeBin(charToRaw(x),con,endian =“小”)
https://tomizonor.wordpress.com/2013/04/17/file-utf8-windows/