我需要将输入 csv 文件中的所有不良记录写入 Spark 本地的 badrecordfile 中。我正在使用 Eclipse 来实现同样的目的。
代码:
inputDFRdd = spark.read.format("com.databricks.spark.csv")
.option("mode", "DROPMALFORMED")
.option("badRecordsPath", "/src/test/resources/bad.txt")
.option("delimiter", ";")
.option("header", "false")
.schema(customSchema)
.option("escape", "\"").load(filepath).rdd.zipWithIndex().map(line => Row.fromSeq(Seq(line._2 + 1) ++ line._1.toSeq)
这个 badRecords 文件创建是 databricks 的一个特定功能。这在本地模式下不起作用。