我有3个数据文件存储在ORC中,并由DATE
分区。
/orc/orc_FLORIDA_2019-04-29/alloc_FLORIDA_2019-04-29/DATE=2019-04-29/myfile.snappy.orc
/orc/orc_FLORIDA_2019-04-29/avails_FLORIDA_2019-04-29/DATE=2019-04-29/myfile.snappy.orc
/orc/orc_FLORIDA_2019-04-29/orders_FLORIDA_2019-04-29/DATE=2019-04-29/myfile.snappy.orc
我提取了一个星期的数据,因此每组文件的下一个文件结构如下所示:
/orc/orc_FLORIDA_2019-04-30/alloc_FLORIDA_2019-04-30/DATE=2019-04-30/myfile.snappy.orc
/orc/orc_FLORIDA_2019-05-1/alloc_FLORIDA_2019-05-1/DATE=2019-05-1/myfile.snappy.orc
/orc/orc_FLORIDA_2019-05-2/alloc_FLORIDA_2019-05-2/DATE=2019-05-2/myfile.snappy.orc
ETC ...
我知道我可以使用以下命令读取一天的ORC文件:
alloc_orc = spark.read.orc("/orc/orc_FLORIDA_2019-04-30/alloc_FLORIDA_2019-04-30/")
avails_orc = spark.read.orc("/orc/orc_FLORIDA_2019-04-30/avails_FLORIDA_2019-04-30/")
orders_orc = spark.read.orc("/orc/orc_FLORIDA_2019-04-30/orders_FLORIDA_2019-04-30/")
我将如何读取每个表的整周数据?
并且,如果我有一个月的数据,我只能在第一周阅读吗?还是我必须阅读整个月,然后筛选所需的日期?
我需要调整文件结构并将输出的数据保存到此以便于读入吗?
/orc/orc_FLORIDA/alloc/DATE=2019-04-29/myfile.snappy.orc
/orc/orc_FLORIDA/alloc/DATE=2019-04-30/myfile.snappy.orc
/orc/orc_FLORIDA/avails/DATE=2019-04-29/myfile.snappy.orc
/orc/orc_FLORIDA/avails/DATE=2019-04-30/myfile.snappy.orc
ETC ...
非常感谢您的帮助!
如果将结构更改为Date
,则alloc/avails
会更容易谓词下推式过滤器。
/orc/orc_FLORIDA/DATE=2019-04-29/alloc/myfile.snappy.orc
/orc/orc_FLORIDA/DATE=2019-04-30/alloc/myfile.snappy.orc
/orc/orc_FLORIDA/DATE=2019-04-29/avails/myfile.snappy.orc
/orc/orc_FLORIDA/DATE=2019-04-30/avails/myfile.snappy.orc
#set predicate pushdown parameter
spark.sql("set spark.sql.orc.filterPushdown=true").show()
#read 1 week files and you can extract alloc,avails from file_name in case if you need to add them as column
spark.read.orc("/orc/orc_FLORIDA").\
filter((col("DATE") >= "strt_date") & (col("batchdate") < "end_date")).\
withColumn("file_name",input_file_name()).\
show(10,False)