我有一个非常大的 CSV 文件,其中包含超过一百万个观测值和 170 个变量,通常如下所示:
变量A、变量B、变量C 1,2,”01/01/2024” ,是的,0 1,1,
我有兴趣使用 SAS 清理数据,但即使我指定了字符格式,导入文件时仍然会出现错误。到目前为止,我找到的唯一解决方案是在数据步骤中指定所有变量的长度、格式和信息,这导致了超过 765 行代码 - 所有这些都只是导入一个文件。
R 似乎可以通过使用 readr 包中的 read_csv 轻松处理这个问题。 SAS 是否需要非常长的代码来执行 R 可以用一行代码完成的事情?
您可以使用这个简单的程序读取每行 170 个字段的 CSV 文件,将每个变量视为最大长度为 50 字节的字符。 (如果文件没有标题行,则删除 FIRSTOBS=2 选项)。
data want;
infile 'myfile.csv' dsd truncover firstobs=2;
input (var1-var170) (:$50.);
run;