我正在尝试使用 Spark 在 EMR 中运行繁重的工作负载。我的记录数接近 50 亿。我正在对其他也有数十亿条记录的数据帧进行诸如连接、分组、排序等转换。
我正在使用实例
Primary - r6g.8xlarge
Core - r6g.12xlarge
启动 emr 并使用动态分配默认情况下处于启用状态(我相信)。
但我仍然收到类似 -
的错误java.io.IOException: Connection reset by peer
java.io.IOException: Failed to send RPC
Caused by: io.netty.channel.StacklessClosedChannelException
任何帮助将不胜感激。 谢谢