AWS Glue 错误 ModuleNotFoundError:没有名为“pyodbc”的模块
我想使用 python 脚本连接到 Microsoft SQL Server,该脚本将在 AWS Glue 上执行。我在安全配置->脚本库->作业参数(可选)中添加了作业参数...
显示已创建表格的图像。 (爬虫快照) 即使爬网程序日志指出 - 已创建 2 个表,也无法在 AWS datalake/glue UI 中的数据库选项卡下查看表。 2020-09-...
如何在 Step Function 中包含 AWS Glue 爬网程序
这是我的要求: 我在 AWS Glue 中有一个爬虫和一个 pyspark 作业。我必须使用步骤功能设置工作流程。 问题: 如何将 Crawler 添加为第一个状态。参数是什么...
将 AWS Glue 连接到本地 MySQL 时出现问题,是 AWS VPC 吗?
我在 AWS 外部托管的私有 Ubuntu 实例上运行 MySQL。我的 S3 存储桶中有几个 CSV 文件,我想使用 AWS Glue ETL 将其加载到我的 MySQL 数据库中。 我其实在关注...
我在 AWS Glue 服务中偶然发现了一个奇怪的问题。我手动创建了一个数据库,然后将其删除。现在,当我尝试再次创建具有相同名称的数据库时,我得到以下信息: 然而,有一个...
我正在尝试使用 AWS Glue 运行 ETL 作业,将数据从 Redshift 获取到 S3。 当我运行爬网程序时,它成功连接到 Redshift 并获取架构信息。相关日志已创建...
Glue Dynamic Frame 比普通 Spark 慢得多
在下图中,我们使用三种不同配置运行相同的胶水作业,以了解如何写入 S3: 我们使用动态帧写入S3 我们用纯spark框架写信给S...
从 Java 下载和上传 AWS Glue ETL 的 ETL 作业
有人可以告诉我如何使用 Java API 下载或上传作业吗? 我尝试搜索 SDK 或 REST API 来下载作业,但没有找到。 有一个API可以删除作业,...