aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

如何在AWS DynamoDB上执行ETL作业,以便仅在使用AWS Glue的新数据上获取S3中的csv文件

我正在尝试将存储在DynamoDB表中的数据在产品评级上传输到csv文件,该文件可以由部署在AWS Sagemaker上的推荐模型处理。我正在使用AWS Glue来改造......

回答 1 投票 0

如何使用PySpark的WHERE子句在AWS Glue中查询JDBC数据库?

我有一个自编的Glue脚本和一个存储在Glue目录中的JDBC Connection。我无法弄清楚如何使用PySpark从存储在RDS中的MySQL数据库中做一个select语句我的JDBC ...

回答 1 投票 0

如何减少胶水etl作业(火花)实际开始执行所花费的时间?

我想开始一个胶水etl工作,虽然执行是公平的(时间问题),然而,胶水实际开始执行工作所花费的时间太多了。我查看了各种文档和......

回答 1 投票 0

为什么胶合pyspark ETL工作中没有新的色谱柱添加到镶木地板?

我们一直在探索使用Glue将一些JSON数据转换为镶木地板。我们尝试的一种方案是在镶木桌上添加一列。因此分区1有列[A],分区2有列[A,B] ....

回答 1 投票 0

有没有办法从粘合作业生成单个csv输出文件? [重复]

正如标题所暗示的那样。我想我记得那是胶水作业生成单个csv输出文件而不是多个输出文件的某种选择,这特定于一些胶水配置和......

回答 1 投票 0

AWS Glue如何访问IP白名单资源

如果我有需要IP白名单的服务,我该如何将AWS Glue连接到它?我读到我似乎能够将AWS Glue放入私有VPC并配置NAT网关。然后我可以允许......

回答 1 投票 0

有没有办法只将“好”记录写入SQL Server表并使用AWS Glue作业返回“坏”记录?

我正在尝试编写一个Glue(PySpark)作业执行一些ETL并最终将该数据写入SQL Server中的表(在AWS Glue目录中定义)。将记录写入SQL Server时...

回答 1 投票 0

AWS Glue并更新重复数据

我正在使用AWS Glue将多个文件从S3移动到RDS实例。每天我都会在S3中获得一个新文件,其中可能包含新数据,但也可以包含我已保存的记录以及一些更新...

回答 3 投票 1

ImportError:没有名为pg8000的模块

我现在使用aws-glue,想把aws-glue连接到aws-aurora(Postgres)!所以,我创建了aws-glew作业,通过使用pg8000将aws-glue连接到aws-aurora(Postgres)。但我收到错误消息......

回答 2 投票 0

AWS胶水爬虫不创建表

我有一个我在AWS Glue中创建的爬虫,它在成功完成后不会在数据目录中创建表。爬虫大约需要20秒才能运行,日志会成功显示...

回答 4 投票 14

自动将数据从s3批量加载到Aurora MySQL RDS实例

我对AWS比较陌生,所以我不知道如何做到这一点,我在s3上有CSV文件,我已经在RDS上设置了Aurora实例。我无法弄清楚的事情是......

回答 1 投票 0

AWS胶水ETL作业在批次的S3事件上触发

我有一个S3存储桶,其中包含许多文件(1000条记录/分钟)。我想在批量删除的文件上触发Glue ETL作业。我已经看过使用Firehose来聚合批次......

回答 1 投票 0

AWS Glue - 无法设置spark.yarn.executor.memoryOverhead

在AWS Glue中运行python作业时,我收到错误:Reason:由于超出内存限制而被YARN杀死的容器。使用5.6 GB的5.5 GB物理内存。考虑提高spark.yarn.executor ....

回答 2 投票 3

AWS Glue Crawler - 未正确获取Timestamp列(始终定义为字符串)

我已经设置了一个AWS Glue抓取工具来索引S3中的一组已打包的CSV文件(然后创建一个Athena数据库)。我的时间戳采用“Java”格式 - 如文档中所定义,示例; 2019-03-07 ......

回答 2 投票 0

在AWS Glue目录中搜索和发现

如何在AWS Glue目录中搜索数据集,我编目了一个数据集并尝试通过搜索该数据集中的字段来发现它,但没有找到任何方法。任何关于此的信息都将...

回答 1 投票 0

是否可以使用AWS CLI仅更新部分胶水作业?

我试图在我的CI / CD开发中包含script_location的更新,并且只包含此参数。 AWS要求我包含RoleArn等必需参数。我怎么才能更新......

回答 1 投票 0

AWS Glue上的Spark SQL:pyspark.sql.utils.AnalysisException

我在AWS Glue脚本中使用Spark SQL来转换S3中的一些数据。这是脚本逻辑数据格式CSV编程语言:Python 1)使用Glue的目录将数据从S3中拉入胶水中......

回答 1 投票 0

AWS Glue截断红移表

我创建了一个胶水作业,将数据从S3(csv文件)复制到Redshift。它可以工作并填充所需的表格。但是,我需要在这个过程中清理桌子,因为我离开了......

回答 3 投票 2

使用AWS Glue覆盖MySQL表

我有一个lambda进程,偶尔会轮询API以获取最新数据。这个数据有唯一的密钥,我想用Glue来更新MySQL中的表。是否有使用...覆盖数据的选项

回答 3 投票 6

将json对象文件保存为json数组而不是s3上的json对象

我想在s3上将DF保存为json格式。它保存为json对象文件,但我想要json数组文件。我在s3上有csv文件,我在aws glue中加载到dataframe中。表演后......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.