aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

AWS Glue BigDecimal 类型的错误值:NaN

我正在尝试将从 postgres(rds) 数据库爬取的表导出到glue中。有一个字段的类型为decimal(10, 2)。现在我有几个问题。 从glue中导出表格(使用spark...

回答 1 投票 0

Glue Spark (Scala) 作业未连接到 postgresql RDS

我有一个用 Scala 编写的 Glue Spark 作业。然后我需要从RDS数据库(PostgreSQL)获取数据源。我在 aws UI 中创建了连接并对其进行了测试。它有效,所以我可以确认胶水

回答 1 投票 0

AWS Glue 测试连接日志

我已设置与 RDS 数据库的 AWS Glue 连接(在同一账户和区域中)。进行测试连接时出现以下错误 rds-prod-snapshot 测试连接失败。了解更多

回答 2 投票 0

如何通过AWS Lambda逐一处理S3存储桶中的文件,直到没有更多文件剩余

场景是这样的: 我期望通过 Appflow 将来自各种来源的文件接收到 S3 存储桶中 地点。这些文件可能会在一天中的不同时间多次出现。 我是...

回答 1 投票 0

“spark.jars.packages”在 AWS Glue 和 Spark 中未按预期工作

我想在 Spark 会话中使用一些 Maven 存储库 JAR 文件,因此我使用“spark.jars.packages”创建会话,它将自动下载 JAR。这没有按预期工作...

回答 1 投票 0

在 S3 上使用 trino、awsglue 创建增量表时 S3 访问被拒绝

我已按照以下配置使用 delta_lake 目录设置 Trino 连接器.name=delta_lake hive.metastore=胶水 hive.metastore.glue.region=eu-west-3 hive.metastore.glue.aws-access-key=<

回答 1 投票 0

从 String 到 Varchar 的红移谱类型转换

当我使用 Glue 爬虫从 S3 扫描数据时,我得到以下架构: {id:整数,值:字符串} 这是因为 Spark 以 String 类型而不是 varchar 类型写回数据。虽然有一个

回答 1 投票 0

“spark.jars.packages”在 AWS Glue 和 Spark 中未按预期工作。可以帮忙吗?

我想在 Spark 会话中使用一些 Maven 存储库 JAR 文件,因此我使用“spark.jars.packages”创建会话,它将自动下载 JAR。这没有按预期工作...

回答 1 投票 0

如何使用单个 Glue Crawler 爬取 PostgreSQL 数据库中的多个表?

我有一个包含许多表的 PostgreSQL 数据库。我想抓取这些表的子集。我可以使用单个 Glue Crawler 来完成此操作,还是每张桌子都需要一个 Crawler? 例如,让我们...

回答 1 投票 0

Pyspark 在加载到文件时将数组字符串转换为数组

我有一个数据框,其截断版本如下所示 +--------------------+--------------------+-------- ------------+-----------------+------------+----- --------------+--------------...

回答 1 投票 0

ModuleNotFoundError:AWS GLUE 中没有名为“psycopg2._psycopg”的模块 - Python 3.9

我正在尝试在 AWS Glue 中使用库 psycopg2。 我遵循了这个问题: “我所做的是将 psycopg2-binary 安装到一个目录中并压缩该目录的内容: mkdir psycopg2-

回答 1 投票 0

AWS Glue 作业中出现错误“启动错误 | 文件 --class 不存在,请参阅日志了解详细信息。”

从工作流程运行 Glue 作业后出现错误。 错误指出 “启动错误 | 文件 --class 不存在,请参阅日志了解详细信息。” 我们尝试过传递作业参数...

回答 2 投票 0

如何将 Python 模块导入到 Glue AWS 中的 Python 脚本中

我有一个具有以下结构的项目: └── 外部变量 ├── anatel_access_data linux.py ├── anatel_access_data.py ├── bsria_variables.py ├── future_external_variables.py ├──

回答 1 投票 0

解决 AWS Glue 中的并发限制

我有一个关于如何最好地管理AWS胶水中并发作业实例的问题。 我的工作定义如下: 工作 = client.create_job( 名称='JOB_NAME', Role='角色名称', ...

回答 3 投票 0

AWS Glue Python 作业 VS AWS Glue Spark 作业

我有一个用例,我必须创建一个 AWS Glue ETL 作业以将 S3 对象中存储的数据更新到 DDB 中的现有表。需要考虑的几个属性是: 目前数据集约为 40...

回答 1 投票 0

AWS Glue python shell 作业因内部服务错误而失败

我正在 AWS Glue 中运行 python shell 程序,但运行大约 10 分钟后失败,并出现错误“内部服务错误”。日志或错误日志不提供任何信息。大多数...

回答 2 投票 0

ResolveChoice 规格以精度和比例转换为十进制

我正在尝试将动态框架中的字段转换为具有特定精度和比例的十进制。当我将数据类型设置为十进制时,它确实会转换为十进制。然而,精度和规模......

回答 1 投票 0

AWS Glue 可以通过 SFTP 连接到远程服务器吗?

我正在尝试使用 Python 3.7 通过 SFTP 建立从 AWS Glue 到远程服务器的连接。我尝试使用 pysftp 库来完成此任务。 但是 pysftp 使用一个名为 bcrypt 的库,它有 p...

回答 3 投票 0

Glue Notebook 未启动:无法启动笔记本

我收到错误:无法启动笔记本。 但已经添加到我的角色中: 信托政策和通证政策 { "版本": "2012-10-17", “陈述”: [ ...

回答 1 投票 0

从 SQL Server 中的表中提取增量数据的 SQL 查询

我正在创建一个 AWS 粘合作业,以将数据从 OLTP 数据库提取到 Redshift 数据库中。我希望 SQL 查询从表中提取增量数据。 我的表有 CreatedOn 和 LastUpda 等列...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.