aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

AttributeError:“DynamoHandler”对象没有属性“export_table_to_point_in_time”

我有一个功能,可以使用版本1.33.13中boto3的export_table_to_point_in_time导出发电机数据 客户端 = boto3.client("dynamodb") 响应=客户。

回答 1 投票 0

创建自定义 TableExpectation Great_expectations

我正在努力实现我的自定义期望。我使用:python、s3、spark、glue。 我描述了我的定制期望: 从 Great_expectations.expectations.expectation 导入 TableExpectation 来自

回答 1 投票 0

使用glueContext python从AWS dynamoDB获取记录的优化

我编写了以下代码来从 DynamoDB 获取记录并对列部门应用过滤器。但这里的问题是在获取所有记录时扫描整个 AWS DynamoDB 表

回答 1 投票 0

如何使用 AWS Glue 运行任意/DDL SQL 语句或存储过程

是否可以从 AWS Glue python 作业执行任意 SQL 命令,例如 ALTER TABLE?我知道我可以用它从表中读取数据,但是有没有办法执行其他数据库特定的命令...

回答 8 投票 0

如何使用 Firehose 将流数据转换为镶木地板,为流数据创建粘合表模式?

我需要使用 Kinesis Data Stream 和 Firehose 流将数据从 DynamoDB 提取到 S3,并将它们转换为镶木地板。 我在 Firehose Str 中设置镶木地板转换时遇到问题...

回答 1 投票 0

如何在 AWS Glue 工作线程中记录消息(在地图函数内)?

我能够按照 https://docs.aws.amazon.com/glue/latest/dg/monitor-continuous-logging-enable.html 中的说明进行操作,并在驱动程序中记录消息。但是当我尝试在地图内使用记录器时

回答 3 投票 0

Gunicorn 在 Docker 中使用 CMD 命令失败

我有一个在 Gunicorn 上运行的 Flask 应用程序,我想对我的应用程序进行 dockerize。为了实现这一目标,我设置了一个 Dockerfile,我想在我的 Docker 镜像中启动 Gunicorn 服务器。

回答 1 投票 0

Amazon s3:获取 Athena/AWS Glue 目录中分区的上次更新日期

我正在尝试找到一种方法来获取每个分区的最后更新日期和时间。例如,如果 15-04-23 分区是在 3 月 15 日创建的,并且一个新文件添加到该分区...

回答 1 投票 0

如何使用具有多个谓词的 Terraform 创建 AWS Glue 触发器?

我正在尝试使用 Terraform 创建 AWS Glue 条件触发器,但无法找到用于创建依赖于其他两个作业是否成功的触发器的正确语法。 我想要

回答 1 投票 0

使用 AWS Glue 的 docker 映像glue_libs_4.0.0_image_01 出现权限被拒绝错误

我正在尝试构建一个使用glue_libs_4.0.0_image_01的管道。管道中的一个步骤是运行 docker 实例,如下所示: 码头工人运行\ --mount=type=bind,source=./test,target=/...

回答 1 投票 0

使用 AWS GLue 发送电子邮件

我有一份用 GLue 制作 ETL 的工作,我需要在这个脚本的最后发送一封包含一些“数据质量”的电子邮件,将 DataFrame Spark 转换为 pandas 并使用 matplotlib 来绘制...

回答 1 投票 0

无法使用 Glue 将数据从 s3 插入到 DDB

从 s3 读取数据后将数据写入 DDB 时,失败并出现以下错误: 错误类别:UNCCLASSIFIED_ERROR;调用 o112.pyWriteDynamicFrame 时发生错误。提供...

回答 1 投票 0

使用PySpark在AWS环境中解码二进制文件

是否可以在AWS环境中使用Netezza备份文件并将其加载到Redshift。 文件是使用以下查询创建的压缩二进制文件。该文件也可以使用 NZ_B 生成...

回答 1 投票 0

AWS Glue BigDecimal 类型的错误值:NaN

我正在尝试将从 postgres(rds) 数据库爬取的表导出到glue中。有一个字段的类型为decimal(10, 2)。现在我有几个问题。 从glue中导出表格(使用spark...

回答 1 投票 0

Glue Spark (Scala) 作业未连接到 postgresql RDS

我有一个用 Scala 编写的 Glue Spark 作业。然后我需要从RDS数据库(PostgreSQL)获取数据源。我在 aws UI 中创建了连接并对其进行了测试。它有效,所以我可以确认胶水

回答 1 投票 0

AWS Glue 测试连接日志

我已设置与 RDS 数据库的 AWS Glue 连接(在同一账户和区域中)。进行测试连接时出现以下错误 rds-prod-snapshot 测试连接失败。了解更多

回答 2 投票 0

如何通过AWS Lambda逐一处理S3存储桶中的文件,直到没有更多文件剩余

场景是这样的: 我期望通过 Appflow 将来自各种来源的文件接收到 S3 存储桶中 地点。这些文件可能会在一天中的不同时间多次出现。 我是...

回答 1 投票 0

“spark.jars.packages”在 AWS Glue 和 Spark 中未按预期工作

我想在 Spark 会话中使用一些 Maven 存储库 JAR 文件,因此我使用“spark.jars.packages”创建会话,它将自动下载 JAR。这没有按预期工作...

回答 1 投票 0

在 S3 上使用 trino、awsglue 创建增量表时 S3 访问被拒绝

我已按照以下配置使用 delta_lake 目录设置 Trino 连接器.name=delta_lake hive.metastore=胶水 hive.metastore.glue.region=eu-west-3 hive.metastore.glue.aws-access-key=<

回答 1 投票 0

从 String 到 Varchar 的红移谱类型转换

当我使用 Glue 爬虫从 S3 扫描数据时,我得到以下架构: {id:整数,值:字符串} 这是因为 Spark 以 String 类型而不是 varchar 类型写回数据。虽然有一个

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.