EMR-Spark正在缓慢地将具有字符串数组的DataFrame写入S3

问题描述投票：2回答：1

我正在尝试从EMR-Spark向S3写入数据帧，并且看到一些非常缓慢的写入时间，其中写入占据了脚本总运行时间（〜80％）。对于它的价值，我已经尝试了.csv和.parquet格式，但似乎没有什么不同。

我的数据可以用两种方式格式化，这是首选格式：

ID：StringType | ArrayOfIDs：ArrayType

（（第一列数字中的唯一ID数以百万计。ArrayOfIDs包含GUID格式的字符串，并且可以包含〜100-100,000个元素中的任何一个）

将第一个表格写到S3的速度非常慢。对于它的价值，我尝试将mapreduce.fileoutputcommitter.algorithm.version设置为2，如下所述：https://issues.apache.org/jira/browse/SPARK-20107无效。

但是我的数据也可以格式化为邻接列表，如下所示：

ID1：StringType | ID2：StringType

这似乎可以更快地写入S3，但是我不知为什么。这是我的具体问题：

postgresql

apache-spark

amazon-s3

amazon-emr

amazon-rds-aurora

1个回答

0
投票

这是我现在正在做的事情：