AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。
如何在 AWS Glue 中使用“zstd”压缩编解码器写入 Delta Lake?
我有 AWS Glue 工作。它使用“Glue 4.0 - 支持spark 3.3、Scala 2、Python 3”版本。 它读取各个镶木地板文件并写入 Delta Lake。我正在使用“write.parquet。
我有一个表格,其中几列完全空白,但是当我使用以下命令读取它们时: glueContext.create_dynamic_frame.from_catalog(database = "database", table_name = "table"...
PySpark:在组内进行分组并根据某些值在单独的字段中显示总和
我有一个数据框,其中包含公司名称、EmpId、奖金和薪水。 公司 EMPID 奖金 薪水 苹果 1234 不 5 苹果 1235 不 7 谷歌 6786 是的 6 谷歌 6787 不 5 谷歌 6788 不 6 目标
用于压缩 parquet 表的 AWS Athena CTAS 会导致查询扫描所有数据
我在 S3 上有一个镶木地板数据湖,我希望从中进行查询。 为了优化性能,我的目标是使用以下脚本定期压缩我的文件: 导入boto3 导入日期时间 导入数学 来自 awsglue....
如何设置在一个 terraform 配置中由爬网程序创建的目录表上运行的数据质量规则集?
我必须使用 AWS Glue 爬网程序通过爬网 AWS RDS MariaDB 数据库来创建和填充 Glue 目录表。 创建后,我想将 AWS Glue 数据质量规则集添加到该新规则中...
我目前正在使用 Athena 以及 Kinesis Firehose、Glue Crawler。 Kinesis Firehose 正在将 JSON 保存到单行文件,如下所示 {"name": "Jone Doe"}{"name": "Jane Doe"}{"name": "Jack Doe"} 乙...
如何在 AWS Glue 3.0 中运行 GraphFrame?
如何在 AWS Glue 3.0 中使用 GraphFrame。我看到只有Spark 2.x版本有pythonwheel包,但其他版本的Spark没有它。我遇到类加载异常 py4j.协议。
如何在 AWS Glue ETL 作业中查询 Athena 中的视图
我在 AWS Athena 中有一些视图,可以从另一个 AWS 账户/团队在我们的目录中访问这些视图。 AWS 本身不支持通过 Glue ETL 作业访问视图,因为我收到“错误 c...
我目前在一家新公司实习,担任数据工程师,在第一个任务中遇到了一些挑战。希望有经验的朋友能够提供一些指导
AWS Glue/Athena:组合许多小型镶木地板文件以提高性能
我有一个用例如下: IoT 设备正在将许多小文件上传到 AWS S3 输入存储桶中。上传后,每个文件都会由 AWS Lambda 函数处理以解码数据并...
我有一个如下所示的数据框。尝试了 Join 和 isin 函数,但没有得到如下所示的预期输出。不知道我错过了什么。如果有人可以提供帮助,请感激。谢谢。 DF1: 姓名 年级 ...
在 AWS Glue 作业中写入 S3 时能否指定 SSE:KMS 密钥 ID?
如果您按照 AWS Glue 添加作业向导创建一个脚本以将 parquet 文件写入 S3,您最终会生成类似这样的代码。 datasink4 =glueContext.write_dynamic_frame.from_optio...
AWS Glue/Athena:如果在查询中不使用分区,它们是否有助于查询性能?
我们有一个用例如下: IoT 设备将数据上传到 S3。这里,AWS Lambda 函数对数据进行解码并将结果作为 parquet 文件写入另一个 S3 存储桶中。结构如下...
KMS 在由 AWS Managed Key 加密的 AWS 跨账户 S3 PutObject 中未发现异常
我正在尝试将帐户 B 中的 Glue 中的虚拟文件放入帐户 A 中的 S3 存储桶。S3 存储桶(test-bucket)正在启用 AWS-KMS 加密并启用 aws/s3 托管密钥。 我添加了以下权限...
我有一个胶水作业,具有从 SAS 获取数据的连接。每次运行时,它都会打开一个网络接口,当作业完成时,网络接口会继续存在。它使我的子区域变得拥挤......
Unnest 和 split 函数在 pyspark SQL 中返回错误
我有一个在 Presto 格式下运行良好的查询(在 Athena 中执行时)。但是,当我在 AWS Glue 中运行相同的查询(通过 Python Spark.SQL 数据帧)时,我收到一条错误消息“
我的S3存储桶结构是这样的-> s3://input/orders/day=1/sample.csv 当我在 athena 上运行简单的选择查询时,我能够从使用爬网程序创建的数据目录表中检索数据
PySpark:在分组数据中查找特定值并将整个组标记为不同值
我有如下的员工数据。我想按 EMP_ID 对以下数据进行分组,如果该分组 EMP_ID 的“状态”值为“未完成”,则 EMP_ID 的整个“总体状态”应该为标记...
获取 json 文件路径时,AWS Glue 作业中出现 FileNotFound 错误
我正在使用 aws Glue 作业在 S3 位置调用 python 脚本。我能够使用 boto3 从本地计算机创建作业并通过 python 代码运行它。 S3中的脚本文件具有以下代码...
我有一些粘合作业,其中的脚本存储在 s3 中。当我们更新存储桶中的脚本时,我们是否需要告诉glue,还是它会在下次运行时拾取更改? 对于上下文,我是