aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

在 Spark scala 中进行转换和收集数据作为列表时出现 java.lang.StackOverflowError

我有一个 Spark 代码,它从配置文件中添加数据帧中的列,最后仅选择配置文件中的现有列来创建新的数据帧。 当我的钱更少时...

回答 1 投票 0

使用 Glue + Delta Lake 在 S3 中创建 Delta 表会创建位置错误的glue 目录表

我正在使用 Delta Lake 框架使用 Glue 创建 ETL 作业。示例演示数据定义为: 数据 = {'访客': ['foo', 'bar', 'baz'], ‘id’:[1,2,3], 'B': [1, 0, 1], ...

回答 1 投票 0

AWS Glue 作业失败并出现错误“命令失败,退出代码 10”

我时不时地收到此错误消息,这使得工作非常不可靠。 在更深入的评估和连续记录中,我看到以下错误: 2021-09-02 10:38:19,810 错误 [主要] 胶水。

回答 2 投票 0

Pyspark saveAsTable 来更新 Glue 架构

我有一个 Pyspark 数据框,我正在将其写入 Glue 目录,如下所示: df.write.format("镶木地板").mode("append").saveAsTable('db.table') 如果输入数据帧...

回答 1 投票 0

将粘合作业的输出作为 AWS Step 函数中下一个粘合作业的输入

我有一个步骤函数,看起来有些东西需要输入并将其传递给粘合作业。粘合作业执行一些操作,第一个操作的输出将作为下一步函数粘合的输入传递...

回答 1 投票 0

我无法使用cloudformation创建AWS胶水作业4.0

我想使用cloudformation创建AWS GLUE作业(GLUE版本4.0),但出现此错误: Glue 版本 4.0 仅支持 Glue ETL,...

回答 1 投票 0

从PySpark中的s3子目录读取数据

我想从 S3 存储桶中读取所有 parquet 文件,包括子目录中的所有文件(这些实际上是前缀)。 在 S3 url 中使用通配符 (*) 仅适用于指定的文件...

回答 3 投票 0

AWS Glue:写入时从 CSV 文件中删除引号字符

我在S3中有一个csv文件,其中没有任何引号。 例如。 dVsdfsCcn7j6,r:werwerwerwerwerwerwerwerwer,_User$SSSSSBFwJ,登录名,密码,false,2011-10-27 10:46:55,d24c2465e-9945645c5-4645509-a7457...

回答 2 投票 0

如何在 AWS Glue 中使用外部 python 库?

这里是第一个堆栈溢出问题。希望我正确地做到这一点: 我需要在 AWSglue 中使用外部 python 库。 “Openpyxl”是库的名称。 我遵循以下指示:https://docs....

回答 4 投票 0

为什么 AWSS Glue 连接需要 VPC S3 终端节点

我在同一个 AWS 账户上有一个 psql RDS,我正在尝试与其建立粘合连接。我使用了 RDS 选项并选择了现有的 RDS,然后将网络设置为相同的 vpc、子网...

回答 1 投票 0

awsglue start-job-run bash 脚本上的多个参数

我正在尝试在 bash 脚本中执行 awsgluestart-job-run 命令,其中我需要在 --arguments 参数中传递多个参数。 这是我期望做的事情的一个例子: 唉...

回答 1 投票 0

AWS Glue 作业:调用 getCatalogSource 时发生错误。无.get

我在 awsglue 连接中使用密码/用户名,现在我切换到 Secret Manager。 现在,当我运行 etl 作业时出现此错误: 调用 o89.getCatalogSource 时出错。不...

回答 2 投票 0

用于 Athena 查询的 AWS Glue 爬网程序未显示我在 s3 存储桶中拥有的所有记录

我有一个 C# 应用程序,用于将审核记录记录到 Kinesis Firehose,以便将这些记录放入 S3 存储桶中。这是完美的,因为我可以看到 S3 存储桶中的文件。 我正在使用动态部分...

回答 1 投票 0

为什么 Athena 对同一个文件进行 N 次调用?

我正在使用 Athena 查询 S3 存储桶,并使用 Athena 分区投影。 这是我的存储桶结构:bucket-name/node=[A-Z0-9]{4}/date={yyyy}-{MM}-{dd}/{uuid}.parquet 例如:存储桶名称/

回答 1 投票 0

使用 AWS Glue 将 Cloudtrail 日志转换为 Parquet

在大规模情况下,CloudTrail (CT) 日志格式被证明效率低下,每天会产生超过 30 亿条记录。如此庞大的体积与 JSON 格式相结合,阻碍了 Athena 的性能。至

回答 1 投票 0

AWS Glue Python Shell 在无需访问 Internet 的情况下升级 Boto3 库

我需要使用更新的 boto3 包来执行 AWS Glue Python3 shell 作业(Glue 版本:1.0)。 默认版本非常旧,因此所有 API 都不起作用 例如,pause_cluster() 和resume_cl...

回答 1 投票 0

使用 AWS Glue 时是否有可以访问的临时文件夹?

在 AWSglue 中运行进程时,是否可以访问临时文件夹来临时保存文件?例如,在 Lambda 中,只要进程是

回答 3 投票 0

AWS Glue Spark 作业并行提取数据库表数据

假设我有这个简单的 AWS Glue 4.0 PySpark 作业: 导入系统 从 awsglue.transforms 导入 * 从 awsglue.utils 导入 getResolvedOptions 从 pyspark.context 导入 SparkContext 来自 awsglue.c...

回答 1 投票 0

如何在 AWS Glue Python Shell 作业中运行 PySpark 作业

我有小型数据集,我想在 AWS Glue Python Shell 作业中运行 PySpark 作业以降低成本。有没有办法在 AWS Glue Python Shell 作业中运行 PySpark 作业?

回答 1 投票 0

每次新文件替换新文件时,AWS Glue 都会创建一个新的临时表

我们每天都会从第三方系统的 s3 存储桶中收到新文件。从这个 s3 存储桶中,我们将数据复制到另一个 s3 存储桶中。文件名为 results.parquet。我们每天都会进行 Glue Craw...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.