我想跳过第一行并从第二行开始考虑,我使用标题起始位置为 2,跳过行为 1,但它不起作用,因为它也将第二行作为数据加载。有人可以建议一个可行的解决方案吗?
以下是样本数据
数据:
Loan|||
Issue ID|Report Date|Pool ID|Loan ID
592029|31/03/2024|DTC1|65
将第二行视为标题 和第三行的数据
如果您可以在第一行(或您想跳过的任何其他行)的开头添加特殊字符,那么您可以使用 comment 选项
设置用于跳过以此字符开头的行的单个字符。默认情况下,它是禁用的。
#Loan|||
Issue ID|Report Date|Pool ID|Loan ID
#Another skipped line
592029|31/03/2024|DTC1|65
spark.read.option("comment", "#")
.option("sep", "|")
.option("header", true)
.csv("<PATH>").show()
+--------+-----------+-------+-------+
|Issue ID|Report Date|Pool ID|Loan ID|
+--------+-----------+-------+-------+
| 592029| 31/03/2024| DTC1| 65|
+--------+-----------+-------+-------+