aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

如何在 AWS Glue 中使用“zstd”压缩编解码器写入 Delta Lake?

我有 AWS Glue 工作。它使用“Glue 4.0 - 支持spark 3.3、Scala 2、Python 3”版本。 它读取各个镶木地板文件并写入 Delta Lake。我正在使用“write.parquet。

回答 1 投票 0

AWS Glue 未读取空白列

我有一个表格,其中几列完全空白,但是当我使用以下命令读取它们时: glueContext.create_dynamic_frame.from_catalog(database = "database", table_name = "table"...

回答 1 投票 0

PySpark:在组内进行分组并根据某些值在单独的字段中显示总和

我有一个数据框,其中包含公司名称、EmpId、奖金和薪水。 公司 EMPID 奖金 薪水 苹果 1234 不 5 苹果 1235 不 7 谷歌 6786 是的 6 谷歌 6787 不 5 谷歌 6788 不 6 目标

回答 1 投票 0

用于压缩 parquet 表的 AWS Athena CTAS 会导致查询扫描所有数据

我在 S3 上有一个镶木地板数据湖,我希望从中进行查询。 为了优化性能,我的目标是使用以下脚本定期压缩我的文件: 导入boto3 导入日期时间 导入数学 来自 awsglue....

回答 1 投票 0

如何设置在一个 terraform 配置中由爬网程序创建的目录表上运行的数据质量规则集?

我必须使用 AWS Glue 爬网程序通过爬网 AWS RDS MariaDB 数据库来创建和填充 Glue 目录表。 创建后,我想将 AWS Glue 数据质量规则集添加到该新规则中...

回答 1 投票 0

AWS Athena 如何处理单行 JSON?

我目前正在使用 Athena 以及 Kinesis Firehose、Glue Crawler。 Kinesis Firehose 正在将 JSON 保存到单行文件,如下所示 {"name": "Jone Doe"}{"name": "Jane Doe"}{"name": "Jack Doe"} 乙...

回答 2 投票 0

如何在 AWS Glue 3.0 中运行 GraphFrame?

如何在 AWS Glue 3.0 中使用 GraphFrame。我看到只有Spark 2.x版本有pythonwheel包,但其他版本的Spark没有它。我遇到类加载异常 py4j.协议。

回答 1 投票 0

如何在 AWS Glue ETL 作业中查询 Athena 中的视图

我在 AWS Athena 中有一些视图,可以从另一个 AWS 账户/团队在我们的目录中访问这些视图。 AWS 本身不支持通过 Glue ETL 作业访问视图,因为我收到“错误 c...

回答 1 投票 0

S3 文件传输和 Glue ETL

我目前在一家新公司实习,担任数据工程师,在第一个任务中遇到了一些挑战。希望有经验的朋友能够提供一些指导

回答 1 投票 0

AWS Glue/Athena:组合许多小型镶木地板文件以提高性能

我有一个用例如下: IoT 设备正在将许多小文件上传到 AWS S3 输入存储桶中。上传后,每个文件都会由 AWS Lambda 函数处理以解码数据并...

回答 1 投票 0

PySpark:查找另一个数据框中是否存在值

我有一个如下所示的数据框。尝试了 Join 和 isin 函数,但没有得到如下所示的预期输出。不知道我错过了什么。如果有人可以提供帮助,请感激。谢谢。 DF1: 姓名 年级 ...

回答 1 投票 0

在 AWS Glue 作业中写入 S3 时能否指定 SSE:KMS 密钥 ID?

如果您按照 AWS Glue 添加作业向导创建一个脚本以将 parquet 文件写入 S3,您最终会生成类似这样的代码。 datasink4 =glueContext.write_dynamic_frame.from_optio...

回答 4 投票 0

AWS Glue/Athena:如果在查询中不使用分区,它们是否有助于查询性能?

我们有一个用例如下: IoT 设备将数据上传到 S3。这里,AWS Lambda 函数对数据进行解码并将结果作为 parquet 文件写入另一个 S3 存储桶中。结构如下...

回答 1 投票 0

KMS 在由 AWS Managed Key 加密的 AWS 跨账户 S3 PutObject 中未发现异常

我正在尝试将帐户 B 中的 Glue 中的虚拟文件放入帐户 A 中的 S3 存储桶。S3 存储桶(test-bucket)正在启用 AWS-KMS 加密并启用 aws/s3 托管密钥。 我添加了以下权限...

回答 3 投票 0

Glue 和 EC2:关闭不使用的网络接口

我有一个胶水作业,具有从 SAS 获取数据的连接。每次运行时,它都会打开一个网络接口,当作业完成时,网络接口会继续存在。它使我的子区域变得拥挤......

回答 1 投票 0

Unnest 和 split 函数在 pyspark SQL 中返回错误

我有一个在 Presto 格式下运行良好的查询(在 Athena 中执行时)。但是,当我在 AWS Glue 中运行相同的查询(通过 Python Spark.SQL 数据帧)时,我收到一条错误消息“

回答 1 投票 0

AWS Glue - 带分区的手动数据目录表

我的S3存储桶结构是这样的-> s3://input/orders/day=1/sample.csv 当我在 athena 上运行简单的选择查询时,我能够从使用爬网程序创建的数据目录表中检索数据

回答 1 投票 0

PySpark:在分组数据中查找特定值并将整个组标记为不同值

我有如下的员工数据。我想按 EMP_ID 对以下数据进行分组,如果该分组 EMP_ID 的“状态”值为“未完成”,则 EMP_ID 的整个“总体状态”应该为标记...

回答 1 投票 0

获取 json 文件路径时,AWS Glue 作业中出现 FileNotFound 错误

我正在使用 aws Glue 作业在 S3 位置调用 python 脚本。我能够使用 boto3 从本地计算机创建作业并通过 python 代码运行它。 S3中的脚本文件具有以下代码...

回答 1 投票 0

更新 s3 中的 Glue 脚本

我有一些粘合作业,其中的脚本存储在 s3 中。当我们更新存储桶中的脚本时,我们是否需要告诉glue,还是它会在下次运行时拾取更改? 对于上下文,我是

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.