输出数据帧必须是，

输出数据帧必须是，

问题描述投票：2回答：1

col1, col2, col3

[line1filed1,line1filed2.1 line1filed2.2, line1filed3]

[line2filed1,line2filed2.1 line2filed2.2, line2filed3]

[line3filed1, line3filed2, line3filed3]

[line4filed1,line4filed2, null]

[line5filed1, null, line5filed3]

我正在尝试做

spark
.read
.option("multiLine", "true")
.option("escape", "\\")
.csv("path to file")
某些解决方案建议采用wholeTextFiles，但也提到wholeTextFiles不是最佳解决方案。

什么是正确的方法？

P.S：我确实有一个50GB的输入生产文件。

我有一个具有以下结构的输入文件，col1，col2，col3 line1filed1，line1filed2.1 \ line1filed2.2，line1filed3 line2filed1，line2filed2.1 \ line2filed2.2，line2filed3 line3filed1，...

scala

apache-spark

amazon-emr

spark-csv

1个回答

1
投票

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1