aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

为什么 Athena 对同一个文件进行 N 次调用?

我正在使用 Athena 查询 S3 存储桶,并使用 Athena 分区投影。 这是我的存储桶结构:bucket-name/node=[A-Z0-9]{4}/date={yyyy}-{MM}-{dd}/{uuid}.parquet 例如:存储桶名称/

回答 1 投票 0

使用 AWS Glue 将 Cloudtrail 日志转换为 Parquet

在大规模情况下,CloudTrail (CT) 日志格式被证明效率低下,每天会产生超过 30 亿条记录。如此庞大的体积与 JSON 格式相结合,阻碍了 Athena 的性能。至

回答 1 投票 0

AWS Glue Python Shell 在无需访问 Internet 的情况下升级 Boto3 库

我需要使用更新的 boto3 包来执行 AWS Glue Python3 shell 作业(Glue 版本:1.0)。 默认版本非常旧,因此所有 API 都不起作用 例如,pause_cluster() 和resume_cl...

回答 1 投票 0

使用 AWS Glue 时是否有可以访问的临时文件夹?

在 AWSglue 中运行进程时,是否可以访问临时文件夹来临时保存文件?例如,在 Lambda 中,只要进程是

回答 3 投票 0

AWS Glue Spark 作业并行提取数据库表数据

假设我有这个简单的 AWS Glue 4.0 PySpark 作业: 导入系统 从 awsglue.transforms 导入 * 从 awsglue.utils 导入 getResolvedOptions 从 pyspark.context 导入 SparkContext 来自 awsglue.c...

回答 1 投票 0

如何在 AWS Glue Python Shell 作业中运行 PySpark 作业

我有小型数据集,我想在 AWS Glue Python Shell 作业中运行 PySpark 作业以降低成本。有没有办法在 AWS Glue Python Shell 作业中运行 PySpark 作业?

回答 1 投票 0

每次新文件替换新文件时,AWS Glue 都会创建一个新的临时表

我们每天都会从第三方系统的 s3 存储桶中收到新文件。从这个 s3 存储桶中,我们将数据复制到另一个 s3 存储桶中。文件名为 results.parquet。我们每天都会进行 Glue Craw...

回答 1 投票 0

从 Dynamodb 增量导出数据(例如:过去 24 小时)

我想进行一个批处理,仅从 Dynamodb 导出过去 24 小时(每晚)的 upserts 数据。它将在午夜正常运行,但会有一些延迟。 我知道这些选项: #1) 扫描...

回答 1 投票 0

无法保存获取 headBucket 的 AWS 胶水作业:禁止:null 错误

我在北加州地区创建了一个 AWS 粘合作业,但是当我尝试更新代码时出现错误: 更新作业失败 [s3.us-west-1.amazonaws.com] headBucket:禁止:null ...

回答 1 投票 0

如何分组然后在多列上聚合

我在 Spark 上使用 Pandas。我需要对 A 和 B 进行分组,然后聚合以返回一个映射列表,其中键是 C,值是 D 输入示例: A B C D 0 7

回答 1 投票 0

用 Glue 插入 Snowflake 会抛出“IllegalArgumentException:没有名称为 <host> 的组”

我有一个 Glue 作业,将数据从 RDS 加载到 Snowflake: 此作业用于在此 Snowflake 实例存在之前插入到 S3。现在尝试使用 Snowflake 作为接收器运行它,返回此 e...

回答 1 投票 0

AWS Glue CatalogPartitionPredicate:to_date 不起作用

我计划在我的一个项目中使用catalogPartitionPredicate。我无法处理其中一种情况。以下是详细信息: 分区列:年、月、日

回答 1 投票 0

在聚合期间计算最长的日期条纹 - 使用 pyspark

想象一张桌子: 人员ID 日期 已完成锻炼 A 2001年1月31日 1 A 2001年1月2日 1 A 2001年2月2日 1 A 2001年2月3日 0 A 2001年2月4日 1 乙 2001年2月2日 1 我想创建一个 pyspark 聚合函数...

回答 1 投票 0

AWS Athena 分区投影 - 使用整数或日期表示 yyyymmdd

我在 S3 上有一个 Parquet 数据湖,结构如下: s3://bucket/deviceid/table_x/20230102/xyz.parquet 在这里,我使用分区结构 yyyymmdd。 在设置我的桌子时,我想添加 '

回答 1 投票 0

如何在 AWS Glue 作业中设置“zstd”压缩级别?

背景 “zstd”压缩编解码器有 22 个压缩级别。我读了这个优步博客。关于压缩时间和文件大小,我使用 df.to_parquet 与我们的数据进行验证并得到相同的

回答 1 投票 0

将 AWS Glue 连接到 Redshift Serverless Workspace 时出错

在进行一些转换后,我正在使用 AWS Glue 将数据从 Glue Catalog 迁移到 Redshift Serverless 和 S3。 因为我正在学习 Glue,所以我使用 Redshift Serverless 来省钱。 所以,我...

回答 1 投票 0

通过计算Dataframe大小来优化pyspark代码

我正在使用以下函数(部分来自我从这篇文章中获得的代码片段:计算 Spark 数据帧的大小 - SizeEstimator 给出意外的结果 并根据 w 添加我的计算...

回答 1 投票 0

有没有办法在AWS中为gluejob配置/tmp的大小

我知道您可以使用 lambda 配置临时存储并增加 /tmp 目录的大小,但是是否也可以使用 Glue Job 来执行此操作?或者如果我有一个胶水工作三...

回答 1 投票 0

通过 AWS CloudFormation 部署 AWS Glue 作业:无法正确呈现作业配置字段:语言

我正在使用 AWS CloudFormation 模板来部署 AWS Glue 作业,如下所示: ... “GluePythonScriptRole”:{ "类型": "AWS::IAM::角色", “属性”...

回答 1 投票 0

如何使用spark-xml在pyspark中正确读取嵌套xml?

我有一个如下所示的 xml 文件。 <

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.