如何在 HDFS 系统中解压缩 bz2 文件想要将此.csv 文件上传到我在 hive 中创建的表中
2003.csv.bz2 我有这个文件
zcat 2003.csv.bz2 | hdfs dfs -put - /user/$USER/workspace
我尝试过但不起作用
HDFS 可以原生存储 BZ2 文件,因此 Hive 可以读取该存档中的所有 CSV 数据。理想情况下,您不应该提取它
或者,更好的是,您应该将 CSV 转换为 Avro 或 Parquet 然后上传它。它会让你的 Hive 查询更快
否则,
hdfs put
接受文件,而不是文本输入流