EMR-Spark 工作负载过大的问题

问题描述 投票:0回答:0

我正在尝试使用 Spark 在 EMR 中运行繁重的工作负载。我的记录数接近 50 亿。我正在对其他也有数十亿条记录的数据帧进行诸如连接、分组、排序等转换。

我正在使用实例

Primary - r6g.8xlarge
Core    - r6g.12xlarge
启动 emr 并使用动态分配默认情况下处于启用状态(我相信)。

但我仍然收到类似 -

的错误
java.io.IOException: Connection reset by peer
java.io.IOException: Failed to send RPC
Caused by: io.netty.channel.StacklessClosedChannelException

任何帮助将不胜感激。 谢谢

amazon-web-services apache-spark amazon-emr
© www.soinside.com 2019 - 2024. All rights reserved.