aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

AWS Glue Sagemaker笔记本“没有名为awsglue.transforms的模块”

我已经创建了一个Sagemaker笔记本来开发AWS Glue作业，但是在遍历提供的示例（“使用AWS Glue进行联接，过滤和加载关系数据”时，出现以下错误：是...

amazon-web-services aws-glue amazon-sagemaker

回答 2 投票 0

如何在数据加载之前截断AWS Glue作业中的RDS表？

我正在使用AWS Glue作为ETL将数据加载到RDS表，这是每日快照表，需要在当天加载数据之前将其截断。我在...

amazon-web-services etl aws-glue

回答 1 投票 0

AWS Glue IllegalArgumentException：'无效的类型名称uuid'

我正在尝试将具有UUID的表的一列ETL放入postgres表中，但是我正在努力将UUID列作为UUID类型加载到目标postgres表中。使用以下行的...

amazon-web-services aws-glue

回答 1 投票 0

如何将AWS Glue作业的输出返回给调用的Step Function工作流程？

AWS Step Functions允许调用AWS Glue作业，如下所述：https://docs.aws.amazon.com/step-functions/latest/dg/connect-glue.html我想运行作业并返回一些值就是...

amazon-web-services aws-glue aws-step-functions

回答 1 投票 0

如何将查询从Spark写入Redshift？

我通过SSH连接到Glue中的Dev Endpoint。目前正在运行Spark 2.4.1。我想运行一个简单的查询，选择* from pg_namespace;同样在那之后，要使用COPY ...

apache-spark amazon-redshift aws-glue

回答 1 投票 0

将Spark DataFrame保存到按日期划分的Parquet中

我有巨大的数据框，其中包含几列，其中之一是callDate（DateType）。我想将该数据帧保存到S3的实木复合地板上，并通过此call_date列对其进行分区。这将是初始加载...

apache-spark apache-spark-sql parquet aws-glue

回答 1 投票 1

在AWS胶中创建动态框架时如何忽略引号？

我在S3存储桶中有一个文本文件，我想使用它来创建动态框架。行看起来像这样：“ 0001”“ aaaa”有两列的简单文件。我只想制作一个具有两列的动态框架...

pyspark aws-glue

回答 1 投票 0

Glue_version和python_version在Terraform中不起作用

大家好，我正在使用terraform创建胶水作业。现在，AWS Glue现在支持在Apache Spark 2.4.3（使用Python 3）上运行ETL作业的功能。我要使用此功能。但是每当我...

aws-sdk terraform aws-glue

回答 1 投票 0

Spark Scala：访问数组内部的struct内部的数据

apache-spark apache-spark-sql aws-glue

回答 1 投票 0

AWS胶水作业-写入单个Parquet文件

我正在带有分区的S3存储桶中收集JSON格式的数据。示例：s3：//bucket/app-events/year=2019/month=9/day=30/0001.json s3：// bucket / app-events / year = 2019 / month = 9 / day = 30/0002 .json s3：// ...

amazon-web-services amazon-s3 amazon aws-glue

回答 1 投票 0

在指定的VPC内的AWS Glue中运行现有脚本

下面是我要建立的管道。 AWS S3 ---> AWS Glue --->雪花但是我不确定如何在特定的VPC中运行粘合作业。有人，请对此加以说明。

amazon-web-services aws-glue snowflake

回答 1 投票 -1

我如何创建代理以在AWS Glue的Spark UI上查看作业？

我正在AWS Glue上运行Spark作业，我看到了YARN Web UI的URL（跟踪URL）。我不清楚如何创建代理来查看该跟踪站点，我希望使用该代理来找到我的跟踪站点...

amazon-web-services apache-spark amazon-emr aws-glue

回答 1 投票 9

如何从数据库模式的视图中提取数据到胶合的数据框中

我想在postgres数据库中的视图中创建和提取。我可以通过创建spark上下文并在粘合脚本中提取信息来做到这一点，但是我松开了数据分类...