aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

AWS Glue Sagemaker笔记本“没有名为awsglue.transforms的模块”

我已经创建了一个Sagemaker笔记本来开发AWS Glue作业,但是在遍历提供的示例(“使用AWS Glue进行联接,过滤和加载关系数据”时,出现以下错误:是...

回答 2 投票 0

如何在数据加载之前截断AWS Glue作业中的RDS表?

我正在使用AWS Glue作为ETL将数据加载到RDS表,这是每日快照表,需要在当天加载数据之前将其截断。我在...

回答 1 投票 0

AWS Glue IllegalArgumentException:'无效的类型名称uuid'

我正在尝试将具有UUID的表的一列ETL放入postgres表中,但是我正在努力将UUID列作为UUID类型加载到目标postgres表中。使用以下行的...

回答 1 投票 0

如何将AWS Glue作业的输出返回给调用的Step Function工作流程?

AWS Step Functions允许调用AWS Glue作业,如下所述:https://docs.aws.amazon.com/step-functions/latest/dg/connect-glue.html我想运行作业并返回一些值就是...

回答 1 投票 0

如何将查询从Spark写入Redshift?

我通过SSH连接到Glue中的Dev Endpoint。目前正在运行Spark 2.4.1。我想运行一个简单的查询,选择* from pg_namespace;同样在那之后,要使用COPY ...

回答 1 投票 0

将Spark DataFrame保存到按日期划分的Parquet中

我有巨大的数据框,其中包含几列,其中之一是callDate(DateType)。我想将该数据帧保存到S3的实木复合地板上,并通过此call_date列对其进行分区。这将是初始加载...

回答 1 投票 1

在AWS胶中创建动态框架时如何忽略引号?

我在S3存储桶中有一个文本文件,我想使用它来创建动态框架。行看起来像这样:“ 0001”“ aaaa”有两列的简单文件。我只想制作一个具有两列的动态框架...

回答 1 投票 0

Glue_version和python_version在Terraform中不起作用

大家好,我正在使用terraform创建胶水作业。现在,AWS Glue现在支持在Apache Spark 2.4.3(使用Python 3)上运行ETL作业的功能。我要使用此功能。但是每当我...

回答 1 投票 0

Spark Scala:访问数组内部的struct内部的数据

模式看起来像这个根|-orderitemlist:array(nullable = true)| |-元素:struct(containsNull = true)| | |-内部材料代码:字符串(nullable = true)| | |-批号:...

回答 1 投票 0

AWS胶水作业-写入单个Parquet文件

我正在带有分区的S3存储桶中收集JSON格式的数据。示例:s3://bucket/app-events/year=2019/month=9/day=30/0001.json s3:// bucket / app-events / year = 2019 / month = 9 / day = 30/0002 .json s3:// ...

回答 1 投票 0

在指定的VPC内的AWS Glue中运行现有脚本

下面是我要建立的管道。 AWS S3 ---> AWS Glue --->雪花但是我不确定如何在特定的VPC中运行粘合作业。有人,请对此加以说明。

回答 1 投票 -1

我如何创建代理以在AWS Glue的Spark UI上查看作业?

我正在AWS Glue上运行Spark作业,我看到了YARN Web UI的URL(跟踪URL)。我不清楚如何创建代理来查看该跟踪站点,我希望使用该代理来找到我的跟踪站点...

回答 1 投票 9

如何从数据库模式的视图中提取数据到胶合的数据框中

我想在postgres数据库中的视图中创建和提取。我可以通过创建spark上下文并在粘合脚本中提取信息来做到这一点,但是我松开了数据分类...

回答 1 投票 0

HIVE_PARTITION_SCHEMA_MISMATCH

我从AWS Athena收到此错误:HIVE_PARTITION_SCHEMA_MISMATCH:表和分区模式之间不匹配。类型不兼容,不能强制。列'id'...

回答 1 投票 0

如何解决此HIVE_PARTITION_SCHEMA_MISMATCH?

我在S3上的CSV文件中对数据进行了分区:s3://bucket/dataset/p=1/*.csv(分区#1)... s3://bucket/dataset/p=100/*.csv (分区#100)我在s3:// bucket / dataset /上运行了一个分类器,并且...

回答 1 投票 0


AWS Glue Spark作业无法支持带双引号的大写列名

问题陈述/根本原因:我们正在使用AWS Glue将数据从生产PostGress数据库加载到AWS DataLake中。胶水在内部使用Spark作业来移动数据。但是,我们的ETL过程失败...

回答 2 投票 0

AWS Athena-查询从Glue搜寻器生成的大型外部表?

我在aws s3上有大量的历史记录文件集,这些记录总和达数十亿行,我使用了带有grok反序列化器的glue爬虫,在雅典娜上生成了一个外部表,但事实证明,查询它是...

回答 2 投票 0

从文件读取规则,并将这些规则应用于pyspark数据框行

我有一个规则书csv,数据看起来像这样:operator | lastname | operator | firstname | val等于| ABC |包含| XYZ | 2等于| QWE |包含| rty | 3,因此如果姓氏等于ABC ...

回答 1 投票 0

AWS Glue Crawlers:是否可以推断出更改的列名并将它们映射到数据目录中的预定义列名?

我需要从CSV文件中重复加载数据,该数据将以预定义的结构存储在输出文件/表中。但是,每次迭代中输入文件的列名都可以...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.