col1, col2, col3
[line1filed1,line1filed2.1 line1filed2.2, line1filed3]
[line2filed1,line2filed2.1 line2filed2.2, line2filed3]
[line3filed1, line3filed2, line3filed3]
[line4filed1,line4filed2, null]
[line5filed1, null, line5filed3]
我正在尝试做
spark .read .option("multiLine", "true") .option("escape", "\\") .csv("path to file")
某些解决方案建议采用
wholeTextFiles
,但也提到wholeTextFiles
不是最佳解决方案。
什么是正确的方法?P.S:我确实有一个50GB的输入生产文件。
我有一个具有以下结构的输入文件,col1,col2,col3 line1filed1,line1filed2.1 \ line1filed2.2,line1filed3 line2filed1,line2filed2.1 \ line2filed2.2,line2filed3 line3filed1,...