Sparklyr:从 S3 读取多个 Parquet 文件无限期运行

问题描述 投票:0回答:1

我正在使用 Sparklyr 从 S3 存储桶读取 Parquet 文件,在尝试读取多个文件时遇到问题。读取特定文件工作正常,但当尝试读取目录中的所有文件时,该操作会无限期运行。这是我正在使用的代码的简化版本:

library(sparklyr)

config$sparklyr.connect.enablehivesupport <- FALSE

sc <- spark_connect(master = "local", config = config)

sparklyr::spark_read_parquet( 
   sc,
   name = 'test',
   #path = 's3a://.../../data_01_04.parquet', #works fine
   #path = 's3a://.../../' #does not work
   #path = 's3a://.../../*.parquet' #does not work
 )

我在指定读取多个文件的路径时是否遗漏了某些内容?任何见解或建议将不胜感激。

r apache-spark parquet sparklyr read-data
1个回答
0
投票

您是否尝试过启用递归文件查找?并将以文件夹名称结尾的路径不带 /

© www.soinside.com 2019 - 2024. All rights reserved.