假设我具有以下具有以下内容的csv文件
file_20190901.csv
col1 col2 col3
data 20190901 A
file_20190902.csv
col1 col2 col3
data 20190901 B
data 20190902 A
因此,几天后,文件名将为file_20190903.csv
col1 col2 col3
data 20190902 B
data 20190903 A
因此,现在的任务是将这些csv文件合并到数据框中,并包括col2上的所有记录20190901至20190903,并使用最新的行data。所以希望结果是
col1 col2 col3
data 20190901 B
data 20190902 B
data 20190903 A
如何使用Python在Databricks中执行此操作?
从示例文件中,col2具有相同的值,但col3具有不同的值。因此,您不能合并两个文件。
file_20190901.csv
col1 col2 col3
数据20190901 A
file_20190902.csv
col1 col2 col3
数据20190901 B
如何读取多个csv文件:
如图所示将所有csv文件复制到dbfs:
然后创建一个python笔记本并按如下方式运行:
ReadMultiple = spark.read.format("csv").option("header", "true").load("/sample/*.csv")
display(ReadMultiple)
希望这会有所帮助。