Databricks CSV多次读取

Question

假设我具有以下具有以下内容的csv文件

file_20190901.csv

col1       col2         col3
data       20190901     A

file_20190902.csv

col1       col2         col3
data       20190901     B
data       20190902     A

因此，几天后，文件名将为file_20190903.csv

col1    col2         col3
data       20190902     B
data       20190903     A

因此，现在的任务是将这些csv文件合并到数据框中，并包括col2上的所有记录20190901至20190903，并使用最新的行data。所以希望结果是

col1    col2         col3
data    20190901     B 
data    20190902     B
data    20190903     A

如何使用Python在Databricks中执行此操作？

Answer 1

从示例文件中，col2具有相同的值，但col3具有不同的值。因此，您不能合并两个文件。

file_20190901.csv

col1 col2 col3

数据20190901 A

file_20190902.csv

col1 col2 col3

数据20190901 B

如何读取多个csv文件：

如图所示将所有csv文件复制到dbfs：

然后创建一个python笔记本并按如下方式运行：

ReadMultiple = spark.read.format("csv").option("header", "true").load("/sample/*.csv")
display(ReadMultiple)

希望这会有所帮助。