在 Spark 中读取 .csv 文件时如何将第二行视为标题

问题描述 投票:0回答:1

我想跳过第一行并从第二行开始考虑,我使用标题起始位置为 2,跳过行为 1,但它不起作用,因为它也将第二行作为数据加载。有人可以建议一个可行的解决方案吗?

以下是样本数据

数据:

Loan|||
Issue ID|Report Date|Pool ID|Loan ID
592029|31/03/2024|DTC1|65

将第二行视为标题 和第三行的数据

scala csv apache-spark databricks
1个回答
0
投票

如果您可以在第一行(或您想跳过的任何其他行)的开头添加特殊字符,那么您可以使用 comment 选项

设置用于跳过以此字符开头的行的单个字符。默认情况下,它是禁用的。

#Loan|||
Issue ID|Report Date|Pool ID|Loan ID
#Another skipped line
592029|31/03/2024|DTC1|65
spark.read.option("comment", "#")
    .option("sep", "|")
    .option("header", true)
    .csv("<PATH>").show()
+--------+-----------+-------+-------+
|Issue ID|Report Date|Pool ID|Loan ID|
+--------+-----------+-------+-------+
|  592029| 31/03/2024|   DTC1|     65|
+--------+-----------+-------+-------+
© www.soinside.com 2019 - 2024. All rights reserved.