我正在尝试使用 Spark 从 Hive 加载数据 可以递归读取dt=2022-10-11目录下的数据,但是无法从-ext-10000读取..也没有显示任何错误
hadoop fs -ls /user/warehouse/dbA/tableA/dt=2022-10-11/
hadoop fs -ls /user/warehouse/dbA/tableA/dt=2022-10-12/-ext-10000
我已使用以下所有 Spark 设置从 HDFS 读取数据, 使用spark 2.3版本:
--conf hive.exec.dynamic.partition=true
--conf hive.exec.dynamic.partition.mode=nonstrict
--conf mapreduce.input.fileinputformat.input.dir.recursive=true
--conf spark.hive.mapred.supports.subdirectories=true
--conf spark.hadoop.hive.supports.subdirectories=true
--conf spark.hadoop.hive.mapred.supports.subdirectories=true
--conf spark.hadoop.hive.input.dir.recursive=true
--conf spark.hadoop.mapreduce.input.fileinputformat.input.dir.recursive=true
--conf hive.exec.compress.output=true
我添加了以下配置,现在spark可以读取子目录下的多个文件 --conf Spark.sql.hive.convertMetastoreOrc=false