aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

通过“NETWORK”类型的 VPC 连接到 EC2 实例上的 SQL Server 时,AWS Glue 能否使用 PyODBC?

我在设置 PyODBC 时遇到了很大的困难,以至于我确信在我的情况下这是不可能的。我的情况是: 我有一个使用 Python Shell 的 AWS Glue 作业。 它连接...

回答 1 投票 0

使用 Spark 写入 Redshift 时 AWS Glue 出错:ORA-01722:无效数字

我正在尝试使用 Pyspark 从 Oracle 数据库读取数据并写入 Redshift 表 # 从Oracle中读取数据 oracle_df = Spark.read \ .format("jdbc") \ .选项(“网址”,

回答 1 投票 0

当我在脚本中发布请求时,AWS Glue 作业陷入运行状态

我是 AWS Glue 作业的新手, 我有一个 slack URL,我想在其中执行发布请求以在我的机器人频道中发布消息。 但是,当我在该 slack URL 上发出发布请求时,我的工作会保持运行状态......

回答 1 投票 0

如何在胶水作业中获取元数据

我想从胶水作业中获取 s3 存储桶(带前缀)的元数据。就像我想获取文件名、创建时间、文件大小等。 在我的胶水作业(pyspark)中,我正在将 csv 文件转换为镶木地板...

回答 1 投票 0

为什么spark .take(1)给出错误(第0年超出范围)?

我在 AWS Glue 中创建了 Spark df,没有标题,列的值为“0001-01-01-00.00.00.000000”或“0001-01-01-00”。 不带标题的示例数据 0001-01-01-00 | 2022-07-09-13.24.60.000000 ...

回答 1 投票 0

获取胶水作业运行详细信息

我被这个问题困扰很久了。我想要的输出是运行粘合作业,在粘合作业中我想获取现在开始的运行的粘合作业运行结束时间。有什么办法可以预...

回答 1 投票 0

找不到AWS数据胶水爬虫表

我正在运行我的爬网程序,在日志中它显示已创建一个表并将其添加到也已创建的数据库中。然而,当我想检查表时,它不在那里。我发现了一些

回答 1 投票 0

有没有办法修改合并到 AWS Glue 工作流中的 AWS Glue 触发器的计划?

我创建了一个 AWS Glue 触发器,作为定期运行的 AWS Glue 工作流的一部分。我已经通过触发器成功设置了定期计划,没有任何问题,但现在我需要......

回答 2 投票 0

AWS Glue 如何调试无效的连接字符串?

我在 VPC 中设置了一个 documentDB,有 2 个私有子网(称为 A 和 B)。 我通过选择适当的 VPC、子网 A 和具有子网访问权限的安全组来设置 Glue 连接。 我是...

回答 1 投票 0

无法通过Glue中的pyspark jdbc加载MongoDB atlas数据

我正在尝试使用 AWS Glue 中的 Pyspark 本机方式加载 MongoDB Atlas 数据。我可以通过 Ec2 实例连接到数据库并查看那里的数据。 版本: MongoDB:5.0.26 JAR:mongo-spark-

回答 1 投票 0

从 mongo 导入的包含 6 M 条记录的 pyspark 数据帧有两条记录为字符串 ('Error...' ),其余为 structytpe。无法写入 s3

我必须使用 AWS Glue 从 mongodb 导入数据。我成功导入glue动态框架中的数据并将glue df转换为spark df。结构数据类型中有一个字段从

回答 1 投票 0

pySpark with Iceberg 保存多个小文件

我有一个 pyspark 作业在 Glue 上运行。我的工作处理数据并将其保存为 Apache Iceberg。问题是,保存表在分区内生成多个小文件。我测试了几种方法...

回答 1 投票 0

如何克服 AWS Glue 的极端内存限制?

一个 Python Shell 作业不能使用多个 DPU。这意味着它的内存限制为 16 GB。 今天早些时候,我将我认为中等的 ETL 任务连接到具有 1 个 DPU 的 AWS Glue。这是...

回答 1 投票 0

AWS Glue -- 将 jar 文件正确传递给 Glue 作业

我有一个正在尝试优化的有效 AWS Glue pyspark 脚本。该脚本读取大型文本 gz 文件,进行一些简单转换,然后按分区将它们加载到 parquet 数据库中。 但是,

回答 1 投票 0

使用 Spark/Python Glue 作业将数据提取到 hudi 表时出现无法解释的 s3 速度下降

我正在使用 AWS Glue Spark/python 作业将数据提取到 s3 存储桶中的 hudi 表中。我遇到了主要的 s3 速度下降问题,其方式超出了合理范围,但无法确定根本原因......

回答 1 投票 0

获取 AWS Glue 中特定范围的分区数量

我想列出给定表的所有分区并获取其计数,但是 awsglue get-partitions --database-name ...返回有关每个分区的详细信息,这不是很有帮助...

回答 2 投票 0

AWS DynamicFrame.Map 不返回任何行

我有以下代码作为 ETL 脚本的一部分。 def UpdateRec(rec): rec["LoanNumber_ERROR"] = rec["LoanNumber"] + " 无效" 返回记录 my_dyf = 动态框架。

回答 1 投票 0

使用步骤函数重新运行失败的粘合作业

我基本上想在状态失败或超时后重试粘合作业两次,然后再进入下一阶段。我的状态机如下所示: { “评论”:“对我的状态的描述

回答 1 投票 0

AWS Glue 作业全局排除模式不起作用

我在 s3 中有以下文件夹结构。 我的桶: - 1-准备- //UUID是随机生成的数字 - 文件1.csv - 文件2.csv - 2-Ready- //UUID是随机生成的

回答 1 投票 0

如何配置eventbridge规则来粘合爬虫?

寻求一些帮助。我读了一些例子,但仍然不确定,是否可以通过 s3 对象通知直接调用胶水爬虫作业。根据我读到的内容,看来我不能......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.