使用 Pyspark 代码通过 Glue Job 处理具有大量数据的多个文件

问题描述 投票:0回答:1

我有一个场景,我们必须通过 Glue Job 处理 9 个文件。目前我们正在使用 Pyspark 并将所有 9 个文件读取到单个数据帧中。文件大小约为 11GB,管道将无限次执行,有时会失败并出现“设备上没有剩余空间”错误。 涂胶作业详情: 工作器类型:G2X(8vCPU,32GB RAM) 工人人数:增加至200人。 我想知道有什么方法可以有效地处理文件

amazon-web-services apache-spark pyspark aws-glue
1个回答
0
投票

我要检查的第一件事是输入文件是否采用可分割格式。

© www.soinside.com 2019 - 2024. All rights reserved.