aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

为什么 Athena 对同一个文件进行 N 次调用？

我正在使用 Athena 查询 S3 存储桶，并使用 Athena 分区投影。这是我的存储桶结构：bucket-name/node=[A-Z0-9]{4}/date={yyyy}-{MM}-{dd}/{uuid}.parquet 例如：存储桶名称/

amazon-web-services amazon-s3 aws-glue amazon-athena

回答 1 投票 0

使用 AWS Glue 将 Cloudtrail 日志转换为 Parquet

在大规模情况下，CloudTrail (CT) 日志格式被证明效率低下，每天会产生超过 30 亿条记录。如此庞大的体积与 JSON 格式相结合，阻碍了 Athena 的性能。至

aws-glue parquet amazon-athena amazon-cloudtrail aws-cloudtrail

回答 1 投票 0

AWS Glue Python Shell 在无需访问 Internet 的情况下升级 Boto3 库

我需要使用更新的 boto3 包来执行 AWS Glue Python3 shell 作业（Glue 版本：1.0）。默认版本非常旧，因此所有 API 都不起作用例如，pause_cluster() 和resume_cl...

python amazon-web-services amazon-redshift boto3 aws-glue

回答 1 投票 0

使用 AWS Glue 时是否有可以访问的临时文件夹？

在 AWSglue 中运行进程时，是否可以访问临时文件夹来临时保存文件？例如，在 Lambda 中，只要进程是

amazon-web-services pyspark aws-glue

回答 3 投票 0

AWS Glue Spark 作业并行提取数据库表数据

假设我有这个简单的 AWS Glue 4.0 PySpark 作业：导入系统从 awsglue.transforms 导入 * 从 awsglue.utils 导入 getResolvedOptions 从 pyspark.context 导入 SparkContext 来自 awsglue.c...

python amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

如何在 AWS Glue Python Shell 作业中运行 PySpark 作业

我有小型数据集，我想在 AWS Glue Python Shell 作业中运行 PySpark 作业以降低成本。有没有办法在 AWS Glue Python Shell 作业中运行 PySpark 作业？

amazon-web-services aws-glue

回答 1 投票 0

每次新文件替换新文件时，AWS Glue 都会创建一个新的临时表

我们每天都会从第三方系统的 s3 存储桶中收到新文件。从这个 s3 存储桶中，我们将数据复制到另一个 s3 存储桶中。文件名为 results.parquet。我们每天都会进行 Glue Craw...

amazon-web-services aws-glue amazon-athena

回答 1 投票 0

从 Dynamodb 增量导出数据（例如：过去 24 小时）

我想进行一个批处理，仅从 Dynamodb 导出过去 24 小时（每晚）的 upserts 数据。它将在午夜正常运行，但会有一些延迟。我知道这些选项： #1) 扫描...

amazon-web-services amazon-s3 amazon-dynamodb aws-glue amazon-athena

回答 1 投票 0

无法保存获取 headBucket 的 AWS 胶水作业：禁止：null 错误

我在北加州地区创建了一个 AWS 粘合作业，但是当我尝试更新代码时出现错误：更新作业失败 [s3.us-west-1.amazonaws.com] headBucket：禁止：null ...

amazon-web-services amazon-s3 aws-lambda aws-glue

回答 1 投票 0

如何分组然后在多列上聚合

我在 Spark 上使用 Pandas。我需要对 A 和 B 进行分组，然后聚合以返回一个映射列表，其中键是 C，值是 D 输入示例： A B C D 0 7

python dataframe pyspark aws-glue pyspark-pandas

回答 1 投票 0

用 Glue 插入 Snowflake 会抛出“IllegalArgumentException：没有名称为 <host> 的组”

我有一个 Glue 作业，将数据从 RDS 加载到 Snowflake：此作业用于在此 Snowflake 实例存在之前插入到 S3。现在尝试使用 Snowflake 作为接收器运行它，返回此 e...

python amazon-web-services pyspark snowflake-cloud-data-platform aws-glue

回答 1 投票 0

AWS Glue CatalogPartitionPredicate：to_date 不起作用

我计划在我的一个项目中使用catalogPartitionPredicate。我无法处理其中一种情况。以下是详细信息：分区列：年、月、日

amazon-web-services pyspark aws-glue jsqlparser

回答 1 投票 0

在聚合期间计算最长的日期条纹 - 使用 pyspark

想象一张桌子：人员ID 日期已完成锻炼 A 2001年1月31日 1 A 2001年1月2日 1 A 2001年2月2日 1 A 2001年2月3日 0 A 2001年2月4日 1 乙 2001年2月2日 1 我想创建一个 pyspark 聚合函数...

python dataframe pyspark time-series aws-glue

回答 1 投票 0

AWS Athena 分区投影 - 使用整数或日期表示 yyyymmdd

我在 S3 上有一个 Parquet 数据湖，结构如下： s3://bucket/deviceid/table_x/20230102/xyz.parquet 在这里，我使用分区结构 yyyymmdd。在设置我的桌子时，我想添加 '

amazon-web-services aws-glue amazon-athena

回答 1 投票 0

如何在 AWS Glue 作业中设置“zstd”压缩级别？

背景 “zstd”压缩编解码器有 22 个压缩级别。我读了这个优步博客。关于压缩时间和文件大小，我使用 df.to_parquet 与我们的数据进行验证并得到相同的

amazon-web-services apache-spark aws-glue delta-lake zstd

回答 1 投票 0

将 AWS Glue 连接到 Redshift Serverless Workspace 时出错

在进行一些转换后，我正在使用 AWS Glue 将数据从 Glue Catalog 迁移到 Redshift Serverless 和 S3。因为我正在学习 Glue，所以我使用 Redshift Serverless 来省钱。所以，我...

amazon-web-services aws-glue amazon-redshift-serverless

回答 1 投票 0

通过计算Dataframe大小来优化pyspark代码

我正在使用以下函数（部分来自我从这篇文章中获得的代码片段：计算 Spark 数据帧的大小 - SizeEstimator 给出意外的结果并根据 w 添加我的计算...

amazon-web-services pyspark optimization aws-glue

回答 1 投票 0

有没有办法在AWS中为gluejob配置/tmp的大小

我知道您可以使用 lambda 配置临时存储并增加 /tmp 目录的大小，但是是否也可以使用 Glue Job 来执行此操作？或者如果我有一个胶水工作三...

amazon-web-services aws-lambda aws-glue

回答 1 投票 0

通过 AWS CloudFormation 部署 AWS Glue 作业：无法正确呈现作业配置字段：语言

我正在使用 AWS CloudFormation 模板来部署 AWS Glue 作业，如下所示： ... “GluePythonScriptRole”：{ "类型": "AWS::IAM::角色", “属性”...

amazon-web-services aws-cloudformation aws-glue

回答 1 投票 0

如何使用spark-xml在pyspark中正确读取嵌套xml？

我有一个如下所示的 xml 文件。 <

pandas pyspark aws-glue apache-spark-xml

回答 1 投票 0

aws-glue 相关问题

最新问题