来自s3错误的sparklyr spark_read_parquet

Question

当我从闪亮的上下文中读取s3上的镶木地板文件时，如下所示：

{spark_read_parquet(sc, name = "parquet_test", path = "s3a://<path-to-file>")}

它抛出了一个错误：

引起：java.io.IOException：无法读取文件的页脚：FileStatus {path = s3a：.....

我可以使用read.parquet（）函数在sparkR会话中读取镶木地板文件。因此，sparkR和sparklyr之间的火花上下文配置必须存在一些差异。

关于这个问题的任何建议？谢谢。

Answer 1

在yarn-client模式下，您使用的文件架构s3不正确。你需要使用s3://<path-to-file>