我在S3中的5KB配置文件下只有几(5-10)个。可以使用AWS S3或RDD读取这些文件。因此,如果有10个文件,则会创建10个RDD对象,并使用collect()将其转换为列表。
collect()
由于RDD是分布式的,建议使用aws-s3 Java SDK而不是RDD进行读取吗?
您应该始终喜欢将配置文件传递给spark驱动程序,然后使用python open命令本身或使用aws胶来读取它们来读取它们。