我有一个场景,我们必须通过 Glue Job 处理 9 个文件。目前我们正在使用 Pyspark 并将所有 9 个文件读取到单个数据帧中。文件大小约为 11GB,管道将无限次执行,有时会失败并出现“设备上没有剩余空间”错误。 涂胶作业详情: 工作器类型:G2X(8vCPU,32GB RAM) 工人人数:增加至200人。 我想知道有什么方法可以有效地处理文件
我要检查的第一件事是输入文件是否采用可分割格式。