如何避免/禁用.crc文件在sparklyr中编写csv文件?

问题描述 投票:0回答:1

我使用spark_write_csv函数将spark数据帧作为csv文件写入本地文件系统。在输出目录中,每个零件文件都有一个.crc文件。

我正在寻找Hadoop / Spark的任何功能或属性,以避免生成这些.crc文件。

flights_tbl<-copy_to(sc,flights,"flights")
spark_write_csv(flights_tbl,  path="xxx" , mode = "overwrite")

这是我得到的输出:

.part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000.csv.crc

part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000
r csv amazon-s3 sparklyr
1个回答
2
投票

这不可能。为所有Spark数据源和内置旧版RDD API生成校验和文件,并且行为不可配置。

要完全避免它,你需要:

  • 实现您自己的Hadoop输入格式。
  • 或者实现自己的数据源(v1或v2),它不依赖于Hadoop输入格式。

并添加spakrlyr包装器以在R代码库中公开。

© www.soinside.com 2019 - 2024. All rights reserved.