如何避免/禁用.crc文件在sparklyr中编写csv文件？

Question

我使用spark_write_csv函数将spark数据帧作为csv文件写入本地文件系统。在输出目录中，每个零件文件都有一个.crc文件。

我正在寻找Hadoop / Spark的任何功能或属性，以避免生成这些.crc文件。

flights_tbl<-copy_to(sc,flights,"flights")
spark_write_csv(flights_tbl,  path="xxx" , mode = "overwrite")

这是我得到的输出：

.part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000.csv.crc

part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000

Answer 1

这不可能。为所有Spark数据源和内置旧版RDD API生成校验和文件，并且行为不可配置。

要完全避免它，你需要：

并添加spakrlyr包装器以在R代码库中公开。