Databricks CSV多次读取

问题描述 投票:-1回答:1

假设我具有以下具有以下内容的csv文件

file_20190901.csv

col1       col2         col3
data       20190901     A

file_20190902.csv

col1       col2         col3
data       20190901     B
data       20190902     A

因此,几天后,文件名将为file_20190903.csv

col1    col2         col3
data       20190902     B
data       20190903     A

因此,现在的任务是将这些csv文件合并到数据框中,并包括col2上的所有记录20190901至20190903,并使用最新的行data。所以希望结果是

col1    col2         col3
data    20190901     B 
data    20190902     B
data    20190903     A

如何使用Python在Databricks中执行此操作?

python databricks
1个回答
0
投票

从示例文件中,col2具有相同的值,但col3具有不同的值。因此,您不能合并两个文件。

file_20190901.csv

col1 col2 col3

数据20190901 A

file_20190902.csv

col1 col2 col3

数据20190901 B

如何读取多个csv文件:

如图所示将所有csv文件复制到dbfs:

enter image description here

然后创建一个python笔记本并按如下方式运行:

ReadMultiple = spark.read.format("csv").option("header", "true").load("/sample/*.csv")
display(ReadMultiple)

enter image description here

希望这会有所帮助。

© www.soinside.com 2019 - 2024. All rights reserved.