aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

带红移光谱分析时间戳,胶水目录(S3 Parquet)

我们在AWS胶水目录中有一个表格,其中存储在S3中的数据作为镶木文件。该表包含多个字段,包括: event_name(字符串) 国家(弦) 用户ID(字符串) ti(时间戳) ...

回答 1 投票 0

从数据框架中提取列值,然后进入SQL Pyspark,其中句子

我正在尝试一个方案,将数据从后端提取到数据框架中,并且只需从该表中检索column1 list值示例“ ID”列,然后将ID值列表传递到SQL查询中...

回答 1 投票 0


如何在AWS胶水中添加Python套件3.0 Jupyter Notebook Jobs?

如何在胶水中添加新参数?这里有我缺少的东西吗?

回答 1 投票 0

EXTRA文件未复制到Job Run Directory

当我经营一份工作时,我仍然会得到fileNotfound例外。我还使用ListDir()查看内容,并注意到缺少配置文件。

回答 3 投票 0







步长1:在AWS胶水 - >数据连接中创建连接:

回答 1 投票 0



aws胶合作业输出文件名

因此,我尝试使用以下代码:

回答 1 投票 0





如何在胶合作业中添加当前的时间戳(额外的列),以便输出数据具有额外的列

如何在胶合作业中添加当前的时间戳(额外的列),以便输出数据具有额外的列。在这种情况下: 架构源表: Col1,Col2 胶水工作后。 目的地模式: ...

回答 5 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.