无法将Spark SQL DataFrame写入S3

问题描述 投票:1回答:3

我已经在EC2上安装了spark 2.0并且我正在使用SparkSQL使用Scala从DB2检索记录并且我想写入S3,我将访问密钥传递给Spark上下文。以下是我的代码:

val df = sqlContext.read.format("jdbc").options(Map( "url" -> , "user" -> usernmae, "password" -> password, "dbtable" -> tablename, "driver" -> "com.ibm.db2.jcc.DB2Driver")).option("query", "SELECT * from tablename limit 10").load()
df.write.save("s3n://data-analytics/spark-db2/data.csv")

它抛出以下异常:

org.apache.hadoop.fs.s3.S3Exception: org.jets3t.service.S3ServiceException: Service Error Message. -- ResponseCode: 403, ResponseStatus: Forbidden, XML Error Message: <?xml version="1.0" encoding="UTF-8"?><Error><Code>AccessDenied</Code><Message>Access Denied</Message><RequestId>1E77C38FA2DB34DA</RequestId><HostId>V4O9sdlbHwfXNFtoQ+Y1XYiPvIL2nTs2PIye5JBqiskMW60yDhHhnBoCHPDxLnTPFuzyKGh1gvM=</HostId></Error>
Caused by: org.jets3t.service.S3ServiceException: Service Error Message.
  at org.jets3t.service.S3Service.putObject(S3Service.java:2358)
  at org.apache.hadoop.fs.s3native.Jets3tNativeFileSystemStore.storeEmptyFile(Jets3tNativeFileSystemStore.java:162)

这里发生的确切问题是什么,因为我也将访问密钥传递给Sparkcontext?还有其他任何写入S3的方法吗?

scala apache-spark amazon-s3 apache-spark-sql spark-dataframe
3个回答
2
投票

获得密钥后,这是如何在s3n上的scala / spark2中写出s3。

spark.sparkContext.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "[access key]")
spark.sparkContext.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "[secret key]")
spark.sparkContext.hadoopConfiguration.set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")

df.write
.mode("overwrite")
.parquet("s3n://bucket/folder/parquet/myFile")

这是如何使用s3a,这是首选。

spark.sparkContext.hadoopConfiguration.set("fs.s3a.access.key", "[access key]")
spark.sparkContext.hadoopConfiguration.set("fs.s3a.secret.key", "[secret key]")
spark.sparkContext.hadoopConfiguration.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")

df.write
.mode("overwrite")
.parquet("s3a://bucket/folder/parquet/myFile")

请参阅此post以了解s3,s3n和s3a之间的差异。


0
投票

在AWS上创建EC2实例或EMR集群时,您可以在创建过程中选择将IAM角色附加到该实例或集群。

默认情况下,不允许EC2实例连接到S3。您需要创建一个角色,并首先将其附加到实例。

附加IAM角色的目的是可以为IAM角色授予使用各种其他AWS服务的权限,而无需在该实例上安装物理凭据。鉴于存在访问被拒绝错误,我假设该实例没有附加IAM角色,并且具有写入S3所需的足够权限。

以下是创建新IAM角色的方法:

  • 导航到AWS身份和访问管理(IAM)页面。
  • 单击Roles,创建一个新角色。
  • 在搜索栏中搜索S3,然后选择S3FullAccess(...或者看起来像这样的东西,我不记得它在我的头顶)
  • 添加您希望该角色拥有的任何其他服务。
  • 保存。

对于常规旧的单个EC2实例,请单击“创建新实例”:

  • 在实例创建步骤的页面中,您选择VPC和子网,有一个IAM角色的选择框,单击该选项并选择新创建的角色。
  • 像以前一样继续并创建您的实例。现在该实例具有写入S3的权限。瞧!

对于EMR集群:

  • 创建EMR集群,然后导航到GUI页面,在该页面中可以看到新集群的详细信息。找到右侧显示EMR角色的区域,然后在您的IAM区域中找到该角色,并通过添加S3完整权限进行编辑。
  • 保存更改。

0
投票

你可以试试这个

df.write.mode("append").format("csv").save("path/to/s3/bucket");
© www.soinside.com 2019 - 2024. All rights reserved.