Spark:由S3 aws-sdk读取或作为RDD

问题描述 投票:0回答:1

我在S3中的5KB配置文件下只有几(5-10)个。可以使用AWS S3或RDD读取这些文件。因此,如果有10个文件,则会创建10个RDD对象,并使用collect()将其转换为列表。

由于RDD是分布式的,建议使用aws-s3 Java SDK而不是RDD进行读取吗?

java apache-spark rdd
1个回答
0
投票

您应该始终喜欢将配置文件传递给spark驱动程序,然后使用python open命令本身或使用aws胶来读取它们来读取它们。

© www.soinside.com 2019 - 2024. All rights reserved.