aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

通过“NETWORK”类型的 VPC 连接到 EC2 实例上的 SQL Server 时，AWS Glue 能否使用 PyODBC？

我在设置 PyODBC 时遇到了很大的困难，以至于我确信在我的情况下这是不可能的。我的情况是：我有一个使用 Python Shell 的 AWS Glue 作业。它连接...

python sql-server amazon-web-services aws-glue pyodbc

回答 1 投票 0

使用 Spark 写入 Redshift 时 AWS Glue 出错：ORA-01722：无效数字

我正在尝试使用 Pyspark 从 Oracle 数据库读取数据并写入 Redshift 表 # 从Oracle中读取数据 oracle_df = Spark.read \ .format("jdbc") \ .选项（“网址”，

oracle apache-spark amazon-redshift aws-glue

回答 1 投票 0

当我在脚本中发布请求时，AWS Glue 作业陷入运行状态

我是 AWS Glue 作业的新手，我有一个 slack URL，我想在其中执行发布请求以在我的机器人频道中发布消息。但是，当我在该 slack URL 上发出发布请求时，我的工作会保持运行状态......

amazon-web-services aws-glue aws-glue-connection

回答 1 投票 0

如何在胶水作业中获取元数据

我想从胶水作业中获取 s3 存储桶（带前缀）的元数据。就像我想获取文件名、创建时间、文件大小等。在我的胶水作业（pyspark）中，我正在将 csv 文件转换为镶木地板...

amazon-web-services amazon-s3 aws-glue

回答 1 投票 0

为什么spark .take(1)给出错误（第0年超出范围）？

我在 AWS Glue 中创建了 Spark df，没有标题，列的值为“0001-01-01-00.00.00.000000”或“0001-01-01-00”。不带标题的示例数据 0001-01-01-00 | 2022-07-09-13.24.60.000000 ...

apache-spark pyspark apache-spark-sql aws-glue

回答 1 投票 0

获取胶水作业运行详细信息

我被这个问题困扰很久了。我想要的输出是运行粘合作业，在粘合作业中我想获取现在开始的运行的粘合作业运行结束时间。有什么办法可以预...

amazon-web-services aws-api-gateway aws-glue

回答 1 投票 0

找不到AWS数据胶水爬虫表

我正在运行我的爬网程序，在日志中它显示已创建一个表并将其添加到也已创建的数据库中。然而，当我想检查表时，它不在那里。我发现了一些

amazon-web-services aws-glue aws-glue-data-catalog

回答 1 投票 0

有没有办法修改合并到 AWS Glue 工作流中的 AWS Glue 触发器的计划？

我创建了一个 AWS Glue 触发器，作为定期运行的 AWS Glue 工作流的一部分。我已经通过触发器成功设置了定期计划，没有任何问题，但现在我需要......

amazon-web-services aws-glue aws-glue-workflow

回答 2 投票 0

AWS Glue 如何调试无效的连接字符串？

我在 VPC 中设置了一个 documentDB，有 2 个私有子网（称为 A 和 B）。我通过选择适当的 VPC、子网 A 和具有子网访问权限的安全组来设置 Glue 连接。我是...

aws-glue aws-documentdb

回答 1 投票 0

无法通过Glue中的pyspark jdbc加载MongoDB atlas数据

我正在尝试使用 AWS Glue 中的 Pyspark 本机方式加载 MongoDB Atlas 数据。我可以通过 Ec2 实例连接到数据库并查看那里的数据。版本： MongoDB：5.0.26 JAR：mongo-spark-

mongodb amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

从 mongo 导入的包含 6 M 条记录的 pyspark 数据帧有两条记录为字符串 ('Error...' )，其余为 structytpe。无法写入 s3

我必须使用 AWS Glue 从 mongodb 导入数据。我成功导入glue动态框架中的数据并将glue df转换为spark df。结构数据类型中有一个字段从

mongodb apache-spark pyspark etl aws-glue

回答 1 投票 0

pySpark with Iceberg 保存多个小文件

我有一个 pyspark 作业在 Glue 上运行。我的工作处理数据并将其保存为 Apache Iceberg。问题是，保存表在分区内生成多个小文件。我测试了几种方法...

pyspark aws-glue apache-iceberg

回答 1 投票 0

如何克服 AWS Glue 的极端内存限制？

一个 Python Shell 作业不能使用多个 DPU。这意味着它的内存限制为 16 GB。今天早些时候，我将我认为中等的 ETL 任务连接到具有 1 个 DPU 的 AWS Glue。这是...

python amazon-web-services memory etl aws-glue

回答 1 投票 0

AWS Glue -- 将 jar 文件正确传递给 Glue 作业

我有一个正在尝试优化的有效 AWS Glue pyspark 脚本。该脚本读取大型文本 gz 文件，进行一些简单转换，然后按分区将它们加载到 parquet 数据库中。但是，

python-3.x pyspark aws-glue

回答 1 投票 0

使用 Spark/Python Glue 作业将数据提取到 hudi 表时出现无法解释的 s3 速度下降

我正在使用 AWS Glue Spark/python 作业将数据提取到 s3 存储桶中的 hudi 表中。我遇到了主要的 s3 速度下降问题，其方式超出了合理范围，但无法确定根本原因......

apache-spark amazon-s3 aws-glue apache-hudi

回答 1 投票 0

获取 AWS Glue 中特定范围的分区数量

我想列出给定表的所有分区并获取其计数，但是 awsglue get-partitions --database-name ...返回有关每个分区的详细信息，这不是很有帮助...

amazon-web-services aws-cli aws-glue

回答 2 投票 0

AWS DynamicFrame.Map 不返回任何行

我有以下代码作为 ETL 脚本的一部分。 def UpdateRec(rec): rec["LoanNumber_ERROR"] = rec["LoanNumber"] + " 无效" 返回记录 my_dyf = 动态框架。

dataframe pyspark aws-glue

回答 1 投票 0

使用步骤函数重新运行失败的粘合作业

我基本上想在状态失败或超时后重试粘合作业两次，然后再进入下一阶段。我的状态机如下所示： { “评论”：“对我的状态的描述

amazon-web-services lambda aws-glue aws-step-functions

回答 1 投票 0

AWS Glue 作业全局排除模式不起作用

我在 s3 中有以下文件夹结构。我的桶： - 1-准备- //UUID是随机生成的数字 - 文件1.csv - 文件2.csv - 2-Ready- //UUID是随机生成的

aws-glue glob

回答 1 投票 0

如何配置eventbridge规则来粘合爬虫？

寻求一些帮助。我读了一些例子，但仍然不确定，是否可以通过 s3 对象通知直接调用胶水爬虫作业。根据我读到的内容，看来我不能......

amazon-web-services terraform aws-glue aws-event-bridge aws-glue-crawler

回答 1 投票 0

aws-glue 相关问题

最新问题