输出数据帧必须是,

问题描述 投票:2回答:1
col1, col2, col3 [line1filed1,line1filed2.1 line1filed2.2, line1filed3] [line2filed1,line2filed2.1 line2filed2.2, line2filed3] [line3filed1, line3filed2, line3filed3] [line4filed1,line4filed2, null] [line5filed1, null, line5filed3]

我正在尝试做

spark
.read
.option("multiLine", "true")
.option("escape", "\\")
.csv("path to file")

某些解决方案建议采用wholeTextFiles,但也提到wholeTextFiles不是最佳解决方案。

什么是正确的方法?

P.S:我确实有一个50GB的输入生产文件。

我有一个具有以下结构的输入文件,col1,col2,col3 line1filed1,line1filed2.1 \ line1filed2.2,line1filed3 line2filed1,line2filed2.1 \ line2filed2.2,line2filed3 line3filed1,...
scala apache-spark amazon-emr spark-csv
1个回答
1
投票
© www.soinside.com 2019 - 2024. All rights reserved.