我能够将Azure Datalake中的csv文件加载到pyspark数据框中。如何删除第一行并将第二行作为标题?
我已经看到一些RDD解决方案。但是我无法加载文件,并且由于“ RDD为空”,使用以下代码会出现错误]
items = sc.textFile(f"abfss://{container}@{storage_account_name}.dfs.core.windows.net/tmp/items.csv")
firstRow=data.first()
因此,我更喜欢使用以下标准火花加载。我可以显示数据框内容。我必须删除或删除第一行并将第2nrd行作为标题。谢谢。
items= spark.read.format("csv").load(f"abfss://{container}@{storage_account_name}.dfs.core.windows.net/tmp/items.csv", header=True)