无法从spark加载具有-ext-10000子目录的hdfs文件路径

问题描述 投票:0回答:1

我正在尝试使用 Spark 从 Hive 加载数据 可以递归读取dt=2022-10-11目录下的数据,但是无法从-ext-10000读取..也没有显示任何错误

hadoop fs -ls /user/warehouse/dbA/tableA/dt=2022-10-11/
hadoop fs -ls /user/warehouse/dbA/tableA/dt=2022-10-12/-ext-10000

我已使用以下所有 Spark 设置从 HDFS 读取数据, 使用spark 2.3版本:

--conf hive.exec.dynamic.partition=true
--conf hive.exec.dynamic.partition.mode=nonstrict
--conf mapreduce.input.fileinputformat.input.dir.recursive=true
--conf spark.hive.mapred.supports.subdirectories=true
--conf spark.hadoop.hive.supports.subdirectories=true
--conf spark.hadoop.hive.mapred.supports.subdirectories=true
--conf spark.hadoop.hive.input.dir.recursive=true
--conf spark.hadoop.mapreduce.input.fileinputformat.input.dir.recursive=true
--conf hive.exec.compress.output=true
apache-spark hadoop apache-spark-sql data-transfer
1个回答
0
投票

我添加了以下配置,现在spark可以读取子目录下的多个文件 --conf Spark.sql.hive.convertMetastoreOrc=false

© www.soinside.com 2019 - 2024. All rights reserved.