我正在使用 Sparklyr 从 S3 存储桶读取 Parquet 文件,在尝试读取多个文件时遇到问题。读取特定文件工作正常,但当尝试读取目录中的所有文件时,该操作会无限期运行。这是我正在使用的代码的简化版本:
library(sparklyr)
config$sparklyr.connect.enablehivesupport <- FALSE
sc <- spark_connect(master = "local", config = config)
sparklyr::spark_read_parquet(
sc,
name = 'test',
#path = 's3a://.../../data_01_04.parquet', #works fine
#path = 's3a://.../../' #does not work
#path = 's3a://.../../*.parquet' #does not work
)
我在指定读取多个文件的路径时是否遗漏了某些内容?任何见解或建议将不胜感激。
您是否尝试过启用递归文件查找?并将以文件夹名称结尾的路径不带 /