aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

如何在aws粘合中读取非utf-8编码的表?

这是一个用于读取csv文件(scala)的代码:val input = glueContext .getCatalogSource(database =“my_database”,tableName =“my_table”)。getDynamicFrame()哪个失败,不清楚...

回答 1 投票 2

可以在实例运行时修改AWS Glue脚本

这是一个我无法找到答案的一般性问题。可以在实例ID运行时修改AWS Glue脚本。编辑脚本是否会影响...

回答 1 投票 0

想要清楚关于AWS Glue的大图

我想清楚一下以下几个方面关于aws Glue的大图。 AWS Glue如何准备和配置其基础架构?然而,它是无服务器,但它如何管理它?怎么样 ...

回答 1 投票 -2

如何使用ODBC连接器连接胶水ETL / Spark中的关系数据库

我需要在AWS生态系统中使用ODBC Connector从RDBMS中提取数据。 AWS Glue不提供ODBC连接。如何使用spark中的ODBC驱动程序将我的spark代码与Relational DB连接起来。一世 ...

回答 1 投票 0

AWS Glue完成后,如何执行SQL脚本或存储过程?

我正在学习AWS Glue。对于传统的ETL,常见的模式是从目标表中查找主键,以确定是否需要执行更新或插入(也称为upsert设计模式)。 ...

回答 1 投票 0

如何在转换数据类型时使“applymapping”正常工作

我的问题是我的ETL作业中的特定列没有转换为搜索到的数据类型,这意味着每次运行作业并稍后爬网(每天)时,数据类型为“字符串”并且......

回答 1 投票 0

Terraform AWS Athena将Glue目录用作db

我很困惑我应该如何使用terraform将Athena连接到我的Glue Catalog数据库。我使用资源“aws_glue_catalog_database”“catalog_database”{name =“$ {var.glue_db_name}”} ...

回答 2 投票 6

AWS Athena在csv文件中找不到任何记录

我在s3中获得了2Gb csv文件(管道分离),在其上运行一个胶水爬虫,创建了新表。当从aws-athena运行查询时,它发现零记录(即使它正确地返回列)没有......

回答 1 投票 0

AWS Glue Crawl动态S3路径位置

我正在AWS Glue中创建一个ETL作业,该作业将从S3位置获取存储库中每个实体的最新编辑或当前数据。存储库中的数据是历史性的......

回答 1 投票 0

AWS S3 ETL工具选项

试图掌握我将用于安排和运行作业以将数据移动到S3的内容,在其上运行脚本并在之后将其移动到s3。我的要求是能够从API中摄取并且还...

回答 2 投票 0

AWS胶水作业 - 将CSV转换为镶木地板

我正在尝试使用AWS Glue将约1.5 GB的GZIPPED CSV转换为Parquet。下面的脚本是一个自动生成的胶水作业来完成该任务。这似乎需要很长时间(我等待......

回答 1 投票 2

将现有DynamoDB项导出为Lambda函数

是否有任何AWS托管解决方案允许执行本质上是使用DynamoDB作为源和Lambda函数作为接收器的数据迁移?我正在建立一个Lambda ...

回答 1 投票 1

如何在AWS DynamoDB上执行ETL作业,以便仅在使用AWS Glue的新数据上获取S3中的csv文件

我正在尝试将存储在DynamoDB表中的数据在产品评级上传输到csv文件,该文件可以由部署在AWS Sagemaker上的推荐模型处理。我正在使用AWS Glue来改造......

回答 1 投票 0

如何使用PySpark的WHERE子句在AWS Glue中查询JDBC数据库?

我有一个自编的Glue脚本和一个存储在Glue目录中的JDBC Connection。我无法弄清楚如何使用PySpark从存储在RDS中的MySQL数据库中做一个select语句我的JDBC ...

回答 1 投票 0

如何减少胶水etl作业(火花)实际开始执行所花费的时间?

我想开始一个胶水etl工作,虽然执行是公平的(时间问题),然而,胶水实际开始执行工作所花费的时间太多了。我查看了各种文档和......

回答 1 投票 0

为什么胶合pyspark ETL工作中没有新的色谱柱添加到镶木地板?

我们一直在探索使用Glue将一些JSON数据转换为镶木地板。我们尝试的一种方案是在镶木桌上添加一列。因此分区1有列[A],分区2有列[A,B] ....

回答 1 投票 0

有没有办法从粘合作业生成单个csv输出文件? [重复]

正如标题所暗示的那样。我想我记得那是胶水作业生成单个csv输出文件而不是多个输出文件的某种选择,这特定于一些胶水配置和......

回答 1 投票 0

AWS Glue如何访问IP白名单资源

如果我有需要IP白名单的服务,我该如何将AWS Glue连接到它?我读到我似乎能够将AWS Glue放入私有VPC并配置NAT网关。然后我可以允许......

回答 1 投票 0

有没有办法只将“好”记录写入SQL Server表并使用AWS Glue作业返回“坏”记录?

我正在尝试编写一个Glue(PySpark)作业执行一些ETL并最终将该数据写入SQL Server中的表(在AWS Glue目录中定义)。将记录写入SQL Server时...

回答 1 投票 0

AWS Glue并更新重复数据

我正在使用AWS Glue将多个文件从S3移动到RDS实例。每天我都会在S3中获得一个新文件,其中可能包含新数据,但也可以包含我已保存的记录以及一些更新...

回答 3 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.