Sparklyr：从 S3 读取多个 Parquet 文件无限期运行

问题描述投票：0回答：1

我正在使用 Sparklyr 从 S3 存储桶读取 Parquet 文件，在尝试读取多个文件时遇到问题。读取特定文件工作正常，但当尝试读取目录中的所有文件时，该操作会无限期运行。这是我正在使用的代码的简化版本：

library(sparklyr)

config$sparklyr.connect.enablehivesupport <- FALSE

sc <- spark_connect(master = "local", config = config)

sparklyr::spark_read_parquet( 
   sc,
   name = 'test',
   #path = 's3a://.../../data_01_04.parquet', #works fine
   #path = 's3a://.../../' #does not work
   #path = 's3a://.../../*.parquet' #does not work
 )

我在指定读取多个文件的路径时是否遗漏了某些内容？任何见解或建议将不胜感激。

r apache-spark parquet sparklyr read-data

1个回答

0
投票

您是否尝试过启用递归文件查找？并将以文件夹名称结尾的路径不带 /

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.