aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

Trino 冰山连接器“未实现 GlueHiveMetastore 的 getTablesWithParameter”

我在 EMR 版本 6.5 上运行 trino,并且我已经为 trino 添加了 Iceberg 连接器,我希望它使用胶水目录。这些是iceberg.properties下的配置 连接器.name=

回答 1 投票 0

AWS Glue 和 SSL 连接

我正在使用 AWS Glue 将数据写入 PostgreSQL。 我使用 DynamicFrame 来完成此操作,并使用 Glue Catalog 进行编写。 但我在编写时遇到“SSL错误:handshake_failure”。 但是当我测试康涅狄格州...

回答 1 投票 0

动态索引名称

我目前正在利用 AWS Glue ETL 作业将数据从 S3 数据源传输到 OpenSearch。流程进展顺利;然而,我在填充数据方面面临挑战......

回答 1 投票 0

AWS Glue 作业:尝试将镶木地板文件写入 S3 时出现 SchemaColumnConvertNotSupportedException

我在 AWS Glue 目录中有一个表,其中包含所有字符串的数据类型,并且这些文件作为 parquet 文件存储在 S3 中。我想创建一个 Glue 作业,只需从那只猫读取数据......

回答 1 投票 0

在 pyspark 中,在数据帧上调用操作时,每个操作都会多次调用转换函数

我在AWS Glue(4.0)交互式会话上创建了PySpark脚本,主要用于数据验证。 使用 Glue Dynamic Frame 读取数据帧 初始_df =glueContext.create_dynamic...

回答 1 投票 0

AWS Glue:OpenSearch 连接器:动态索引名称

我目前正在利用 AWS Glue ETL 作业将数据从 S3 数据源传输到 OpenSearch。流程进展顺利;然而,我在填充数据方面面临挑战......

回答 1 投票 0

Shapely 库与 Python 3.0 的兼容版本

我正在使用 Glue 4.0 版本的 AWS GLUE、Python 3.0 并尝试使用 Shapely 的外部库。 我尝试了一些版本 - shapely-2.0.2-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl 形状...

回答 1 投票 0

胶水作业中的工作流程参数

我正在尝试将参数从工作流程发送到粘合作业 当我打印 sys.argv 时,我看到以下输出 ['/tmp/test.py', 'true', '--job-bookmark-option', 'job-bookmark-disable', '--JOB_ID', '

回答 1 投票 0

Glue 作业无法从 s3 读取多个文件

如果我选择单个文件,Glue 作业会成功将数据从 s3 写入 Redshift 表,但当我选择包含多个文件的文件夹时则不会 我尝试更改脚本,但没有成功......

回答 1 投票 0

Glue Python Shell - 私有子网访问

我的私有子网中有一个 Redshift 集群。 我正在尝试使用 Glue Python Shell 编写 UNLOAD 作业。 但我无法连接我的集群,因为它驻留在专用子网中。 我尝试过...

回答 2 投票 0

在 AWS Glue 中使用 PyIceberg 创建的空 Iceberg 表缺少位置和架构

我想在 AWS Glue 中使用 PyIceberg 创建一个空的 Iceberg 表。 下面的代码片段创建表,但不显示 AWS Glue 中的位置和架构信息。我缺少什么? 来自

回答 1 投票 0

使用s3和glue时无法以iceberg格式保存分区数据

出现以下错误- java.lang.IllegalStateException:传入记录违反了编写者的假设,即记录按规范和每个规范中的分区进行聚类。要么将

回答 1 投票 0

ICEBERG - MERGE INTO 在来自 docker 镜像 aws-glue-libs:glue_libs_4.0.0_image_01 的 Glue Job 4.0 中不起作用

我在“合并到”ICEBERG 表时从 docker image amazon/aws-glue-libs:glue_libs_4.0.0_image_01 运行 Glue 作业时遇到问题。 我按照 https://aws.amazon.com/

回答 2 投票 0

使用 Spark SQL 在 Iceberg 表上执行事务块

我想在冰山表上执行 DELETE,然后执行 INSERT。但是我想将它们作为一个块执行,这样要么都成功,要么都不成功。我的冰山表位于胶水数据目录中。我尝试执行...

回答 1 投票 0

AWS Dynamo 到 Redshift 每晚数据同步

我们有一个 dynamodb 数据库,希望每晚将数据导出到新的 redshift 数据库临时表。理想情况下,我认为如果我们只导出插入或更新,因为我...

回答 1 投票 0

如何使用 PySpark 让 AWS Glue ETL 作业返回包含所有结果的单个文件?

我创建了一个非常基本的 AWS Glue ETL 作业,用于从数据目录中选择一些字段,该数据目录是通过我指向 RDS 数据库的爬网程序构建的。返回数据集后,我将导出...

回答 2 投票 0

使用 boto3 连接到 AWS 时出现 python SSL 错误 c:1000

之前使用 boto3 连接到 AWS Glue 并返回表信息的 python 脚本 (3.12) 存在问题。 错误信息是: “botocore.exceptions.SSLError:SSL

回答 0 投票 0

如何解决无法从 Redshift Spectrum 访问 Iceberg 表的限制?

我使用 Glue 上的 Python 脚本构建和更新了不同的 Iceberg 表。我现在需要通过 Redshift Spectrum 访问它们。从文档(和一些个人测试)来看,这似乎不可能

回答 1 投票 0

pyiceberg:403 Glue Catalog 禁止错误

请注意,我是 Iceberg 的新手,正在围绕它进行 POC。我已经在 AWS Athena 中创建了一个 Iceberg 表,并尝试通过 pyiceberg 连接到它。我能够成功连接到 Cata...

回答 1 投票 0

Amazon Glue - 作业期间出现连接超时错误

我正在尝试创建从 Redshift Cluster 到 dynamoDB 的 Amazon Glue 作业。连接已建立,但出现以下错误: 调用 o160.pyWriteDynamicFra 时发生错误...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.