aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

如何将消息写入AWS Glue上的输出日志?

AWS Glue作业默认将输出和错误记录到两个不同的CloudWatch日志,/ aws-glue / jobs / error和/ aws-glue / jobs / output。当我在脚本中包含print()语句进行调试时,它们会...

回答 1 投票 10

使用AWS Athena在AWS胶水中复制表格

我在AWS Glue中有一个表,它使用S3存储桶作为数据位置。我想在现有表上执行Athena查询,并使用查询结果创建一个新的Glue表。我试过了 ...

回答 1 投票 0

使用AWS GLUE将引用数据从S3上载到Redshift时出现问题。如何插入数据?

我正在尝试在Redshift中插入数据集,其值为:“2015-04-12T00:00:00.000 + 05:30”“2015-04-18T00:00:00.000 + 05:30”“2015-05-09T00 :00:00.000 + 05:30“”2015-05-24T00:00:00.000 + 05:30“”2015-07 -...

回答 1 投票 0

S3创建日期的分区Athena查询

我有一个带有大约7000万JSON(~15TB)的S3存储桶和一个用于按时间戳查询的雅典娜表以及在JSON中定义的其他一些密钥。可以肯定的是,JSON中的时间戳更多或者......

回答 1 投票 0

从Athena获取数据并粘贴权限

我使用此处列出的代码使用Athena查询数据https://gist.github.com/schledererj/b2e2a800998d61af2bbdd1cd50e08b76这需要以下政策 - {“Version”:“2012-10-17”,“...

回答 1 投票 0

AWS Glue - 如何配置Crawler以创建包含S3文件名的表

我需要完成的事情:全文搜索S3 KEYS(不是文件内容)所以,我的S3存储桶有这样的结构:bucket_name / [email protected]/ folder1 / notthatimportantfile ** any ...

回答 1 投票 0

胶水会创建重复的记录,如何解决?

目前,我们使用Glue(python脚本)从MySQL数据库迁移到RedShift数据库。昨天,我们发现了一个问题:有些记录是重复的,这些记录有相同的主要内容......

回答 2 投票 0

JDBC连接失败

我正在尝试通过JDBC将AWS Glue连接到Azure SQL Server。我已经尝试了jdbc url的不同设置但没有成功。 URL的外观如下:jdbc:sqlserver://domain.windows.net:1433 / ...

回答 2 投票 0

即使在成功完成代码完成后,AWS Glue也会发出错误

我用于在AWS Glue中创建和运行作业的Python代码是:from datetime import datetime,timedelta from time import sleep import boto3 glue = boto3.client(service_name ='glue',...

回答 1 投票 0

将时间戳字段转换为日期类型,并将其用作AWS Glue ETL中的分区

我正在尝试在csv中的一个字段上创建一个分区,并使用Glue ETL(python)将其存储为镶木地板。问题是,这个字段是一个时间戳,所以在创建分区之前,我想提取...

回答 1 投票 1

参数化/可重复使用的AWS胶水作业

我是AWS的新手,我正在尝试创建一个参数化的AWS Glue作业,它应该有输入参数:数据源数据大小计数变量列表以前有人做过类似的事吗?

回答 2 投票 0

AWS Glue与其Dev Endpoint之间的差异

我的理解是AWS Glue中的Dev Endpoints可用于迭代开发代码,然后将其部署到Glue作业。我发现这在开发Spark工作时特别有用,因为每次你......

回答 1 投票 0

AWS Glue执行者死亡

我正在以这种方式使用AWS Glue DynamicFrame从S3读取镶木地板文件:sources = glue_context \ .create_dynamic_frame \ .from_options(connection_type =“s3”,connection_options = {'...

回答 1 投票 0

AWS Glue谓词下推条件无效

我有一个MySQL源代码,我正在创建一个具有谓词下推条件的Glue Dynamic Frame,如下所示datasource = glueContext.create_dynamic_frame_from_catalog(database = ...

回答 1 投票 2

AWS Glue书签:运行作业与触发器

我想知道是否为具有书签功能的特定作业启用了如果我使用触发器运行替换运行作业,它如何工作逻辑。示例我使用“运行作业”按钮手动运行我的作业并...

回答 1 投票 0

使用AWS Glue Jobs将缺少的列值设置为默认值

我正在尝试使用Glue从dynamodb提取数据集到s3。在此过程中,我想选择少量列,然后为具有缺失值的任何和所有行/列设置默认值。 ...

回答 1 投票 0

从EMR迁移到AWS Glue后,Spark SQL中找不到表

我在EMR上有Spark作业,EMR配置为使用Glue目录来获取Hive和Spark元数据。我创建了Hive外部表,它们出现在Glue目录中,我的Spark作业可以......

回答 2 投票 0

在使用AWS Glue Catalog生成的表上查询AWS Athena时,“不支持类型LIST”

我编写了一个ETL作业,将一堆JSON文件转换为存储在S3上的时间分区镶木地板文件(对象)。而不是在AWS Athena上手动创建表并使用Athena数据目录,...

回答 1 投票 2

如何关联包含JSON的数组

我正在使用AWS Glue读取包含JSON的数据文件(在S3上)。这是一个包含在数组中的数据的JSON。我尝试过使用relationalize()函数,但它不适用于数组。它确实有效......

回答 1 投票 0

如何在Terraform中定义AWS胶水设置

所以我可以登录AWS控制台并在左侧面板上选择 - > Glue - > Settings - >定义我的策略,例如{Version:.... Statement:[...]}如何在terraform中实现这一点?现有的地形资源......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.