我正在寻找帮助以R
读取二进制文件。
我知道该文件可以使用以下代码成功地导入Python(对于numpy为np):
dt = np.dtype([('var1', np.uint32), ('var2', np.uint16), ('var3', np.int16),
('var4', np.int16), ('var5', np.int16)])
data = np.fromfile('filename.DAT', dtype=dt)
但是,我不理解如何使用readBin
将文件导入到R
中。任何帮助,将不胜感激。
使用Reticulate或RcppCNPy软件包可能已经存在解决此问题的解决方案。但是,我认为以R为基数展示如何做到这一点可能具有教育意义。
当您使用readBin
将任意二进制数据读入R时,它将文件读入“原始”向量中。这是文件中各个字节的向量。所以你可以做:
my_data <- readBin("filename.DAT", "raw", 10e6)
因此将数据放入R很容易。困难的部分是对其进行解释。
据我从numpy文档中得知,存储在DAT中的数据应以低字节序排列为连续的字节块。因此,在具有指定格式的文件中,您应该使前4个字节代表32位无符号整数,接下来的2个字节显示无符号整数,接下来的6个字节表示3个有符号16位整数。然后,此模式将每12个字节重复一次,直到文件结尾。
这不是R中使用的格式,因此需要一些工作才能取回数据。假设您已读入数据,看起来像这样:
my_data
# [1] 44 5f 93 e8 34 e6 f1 a9 a1 10 35 2e b0 62 c5 7f b7 fd 61 c7 ef 37 a7 21 45 63
# [27] 04 62 de 57 7b 99 7e 30 d3 ab cb 1c b9 69 d2 a6 c8 8e 88 ca 06 7a bb b1 7a dc
# [53] 70 3f 13 1a 51 85 a9 68
如果要查看表中数据行的字节长,可以这样做:
t(matrix(my_data, nrow = 12))
# [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12]
# [1,] 44 5f 93 e8 34 e6 f1 a9 a1 10 35 2e
# [2,] b0 62 c5 7f b7 fd 61 c7 ef 37 a7 21
# [3,] 45 63 04 62 de 57 7b 99 7e 30 d3 ab
# [4,] cb 1c b9 69 d2 a6 c8 8e 88 ca 06 7a
# [5,] bb b1 7a dc 70 3f 13 1a 51 85 a9 68
这意味着应该以这种方式解释您的二进制数据:
# <-----var1--------> <-var2--> <-var3--> <-var4--> <-var5->
# 44 5f 93 e8 | 34 e6 | f1 a9 | a1 10 | 35 2e <- row 1
# b0 62 c5 7f | b7 fd | 61 c7 | ef 37 | a7 21 <- row 2
# 45 63 04 62 | de 57 | 7b 99 | 7e 30 | d3 ab <- row 3
# cb 1c b9 69 | d2 a6 | c8 8e | 88 ca | 06 7a <- row 4
# bb b1 7a dc | 70 3f | 13 1a | 51 85 | a9 68 <- row 5
因此,如果我们首先从此矩阵创建数据框:
df <- as.data.frame(t(matrix(as.numeric(my_data), nrow = 12)))
我们现在可以根据文件的已知结构重新创建变量:
# Make our 32-bit numbers
var1 <- df$V1 + 2^8 * df$V2 + 2^16 * df$V3 + 2^24 * df$V4
# Make our 16-bit numbers
var2 <- df$V5 + 2^8 * df$V6
var3 <- df$V7 + 2^8 * df$V8
var4 <- df$V9 + 2^8 * df$V10
var5 <- df$V11 + 2^8 * df$V12
# Interpret our var3, 4 and 5 as signed rather than unsigned
var3 <- ifelse(var3 < 2^15, var3, -(var3 + 1))
var4 <- ifelse(var4 < 2^15, var4, -(var4 + 1))
var5 <- ifelse(var5 < 2^15, var5, -(var5 + 1))
# Store as a data frame
df <- data.frame(var1 = var1, var2 = var2, var3 = var3, var4 = var4, var5 = var5)
这意味着我们对字节数据进行了以下解释:
df
# var1 var2 var3 var4 var5
# 1 3901972292 58932 43505 -4258 -11830
# 2 2143642288 64951 51041 -14320 -8616
# 3 1644454725 22494 39291 -12415 43987
# 4 1773739211 42706 36552 51848 -31239
# 5 3699028411 16240 -6676 34129 -26794
因此,假设您的数据与您指定的格式完全相同,以下函数应将其提取为数据框:
read_numpty_data <- function(path, max_file_size = 10e6)
{
my_data <- readBin(path, "raw", max_file_size)
df <- as.data.frame(t(matrix(as.numeric(my_data), nrow = 12)))
as_sign <- function(x, y) {(x + 2^8 * y) -> z; ifelse(z < 2^15, z, -(z + 1))}
data.frame(var1 = df$V1 + 2^8 * df$V2 + 2^16 * df$V3 + 2^24 * df$V4,
var2 = df$V5 + 2^8 * df$V6,
var3 = as_sign(df$V7, df$V8),
var4 = as_sign(df$V9, df$V10),
var5 = as_sign(df$V11, df$V12))
}