在 Spark 中读取 .csv 文件时如何将第二行视为标题

Question

我想跳过第一行并从第二行开始考虑，我使用标题起始位置为 2，跳过行为 1，但它不起作用，因为它也将第二行作为数据加载。有人可以建议一个可行的解决方案吗？

以下是样本数据

数据：

Loan|||
Issue ID|Report Date|Pool ID|Loan ID
592029|31/03/2024|DTC1|65

将第二行视为标题和第三行的数据

Answer 1

如果您可以在第一行（或您想跳过的任何其他行）的开头添加特殊字符，那么您可以使用 comment 选项

设置用于跳过以此字符开头的行的单个字符。默认情况下，它是禁用的。

#Loan|||
Issue ID|Report Date|Pool ID|Loan ID
#Another skipped line
592029|31/03/2024|DTC1|65

spark.read.option("comment", "#")
    .option("sep", "|")
    .option("header", true)
    .csv("<PATH>").show()

+--------+-----------+-------+-------+
|Issue ID|Report Date|Pool ID|Loan ID|
+--------+-----------+-------+-------+
|  592029| 31/03/2024|   DTC1|     65|
+--------+-----------+-------+-------+

在 Spark 中读取 .csv 文件时如何将第二行视为标题

问题描述投票：0回答：1

1个回答

最新问题

在 Spark 中读取 .csv 文件时如何将第二行视为标题

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1