使用 Pyspark 代码通过 Glue Job 处理具有大量数据的多个文件

问题描述投票：0回答：1

我有一个场景，我们必须通过 Glue Job 处理 9 个文件。目前我们正在使用 Pyspark 并将所有 9 个文件读取到单个数据帧中。文件大小约为 11GB，管道将无限次执行，有时会失败并出现“设备上没有剩余空间”错误。涂胶作业详情：工作器类型：G2X（8vCPU，32GB RAM）工人人数：增加至200人。我想知道有什么方法可以有效地处理文件

amazon-web-services apache-spark pyspark aws-glue

1个回答

0
投票

我要检查的第一件事是输入文件是否采用可分割格式。

最新问题

角度材料中的多选日期范围
等待数千个任务
Azure SDK for .NET 中是否有一个属性或一组属性来确定管道是经典管道还是使用 YAML
删除.net core中url中的id
并发测试建议
如何在 Blazor 自动模式下使 wwwroot/images 成为 Web 程序集的一部分？
GitLab Runner Docker 执行器和 S3 缓存
更改 Flowbite-react 选项卡组件颜色（下一个 js）
Flutter Getx：调用 Get.snackbar() 时无法导航回来
发现 Web 应用程序的 API
ObjectBox 支持 FullTextSearch (fts) 吗？
如何使用 IBackgroundTask 更改 UWP 中通知的关联应用程序
Flutter Getx：调用 Get.snackbar() 时 UI 没有响应
通过Jmeter获取和设置访问令牌
为什么我的代码在具有生成 UI 的 Google Gemini API 上发送 429 配额超出？
我需要使用 Appium 2 进行 CodeceptJS 移动测试
如何从 Visual Studio 的 IntelliSense 中删除自定义建议
CMACLib 函数未在 Arduino loramesh sketch 中运行
将 AVAudioSinkNode 连接到我的 AVAudioEngine 时崩溃
删除并过滤出exceljs中包含图像的行

使用 Pyspark 代码通过 Glue Job 处理具有大量数据的多个文件

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1