aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

如何使用glue将存储在s3中的json文件转换为csv？

我在 s3 中存储了一些 json 文件，我需要将它们在它们所在的文件夹中转换为 csv 格式。目前我正在使用胶水将它们映射到 athena，但是，正如我所说，现在我需要映射...

amazon-web-services amazon-s3 aws-glue

回答 2 投票 0

如何使用 Glue 作业将 JSON 从 s3 转换为 CSV 文件并将其保存在同一个 s3 存储桶中

请帮助我完成编码部分我用谷歌搜索了代码，但它只显示使用 lambda 处理程序。我的项目需要使用gluejob。

python amazon-web-services amazon-s3 aws-lambda aws-glue

回答 1 投票 0

如何配置 AWS Glue 以通过 pyodata API 和已建立的 VPC 访问 SAP 数据？

我尝试使用 pyodata API 从 SAP 服务获取数据，然后我想使用 AWS Glue 对其进行处理。 SAP 系统位于专用网络上，但通过 VPC 和 TGW 连接到我的 AWS。我

odata aws-glue amazon-vpc sap-gateway

回答 1 投票 0

InvalidInputException（状态：400）：给定分区键类型不支持分区索引

我正在尝试在 AWS Glue for Athena 中的分区列上创建索引。我不断收到错误：无法完成创建索引的请求。 InvalidInputException（状态：400）：分区我...

amazon-s3 indexing aws-glue amazon-athena partitioning

回答 1 投票 0

AWS Glue：分析异常：找不到表或视图

我正在尝试从 Glue 4.0 中的数据帧创建视图，但收到错误 - AnalysisException：未找到表或视图。 glue数据库中表的数据格式是hudi。代码 - 重要...

aws-glue apache-hudi

回答 1 投票 0

Glue 作业将数据类型不正确的 Parquet 文件写入 S3

我正在使用胶水工作。 Glue 作业将输入读取为清单文件，其中包含 JSON 数据文件。将其读取到数据帧后，我们应用某种处理/转换，然后进行粘合作业...

aws-glue

回答 1 投票 0

Spark 流 leftOuter 无法与第三个流连接一起使用

我被这个流 leftOuter join 困住了。我能够流连接 2 个数据帧，并且在水印时间到期后可以获得空值。但如果我加入 3 个数据框，我就无法实现。 ...

pyspark spark-streaming aws-glue spark-structured-streaming

回答 1 投票 0

使用 Pyspark 将整个 json 文件放入数据框的一个单元格中

我有嵌套的 JSON 文件，我需要将每个文件放入数据框的一个单元格中。最初的想法是采用嵌套的 json，再创建一个名为“DataType”的键值列，放入整个

json amazon-web-services dataframe pyspark aws-glue

回答 1 投票 0

粘合 pyspark 脚本，用于从 hudi 表中删除记录而不加载到数据帧中

我在S3中有一个hudi表，它在Glue目录中注册。我希望编写一个 Glue pyspark 作业来删除在其中一个字段中具有特定值的所有记录。我管理的代码示例...

amazon-s3 pyspark aws-glue apache-hudi

回答 1 投票 0

由于 VARCHAR/TEXT 字符的字符串长度限制，尝试执行合并到 Redshift 表时胶水作业失败

我们有数百个 Glue 作业将数据从 S3 和 RDS 移动到 Redshift。当从源系统生成新数据然后移动到 Redshift 时，我们需要执行 upsert，即插入新数据

amazon-redshift aws-glue

回答 1 投票 0

AttributeError：“GlueContext”对象没有属性“create_sample_dynamic_frame”

这个官方文档建议有一个函数可以从 Glue Catalog 读取示例数据，即 create_dynamic_frame_from_catalog。详细：create_dynamic_frame_from_catalog(database, table_name,

python amazon-web-services pyspark aws-glue

回答 1 投票 0

AWS Glue：如何在输出中添加包含源文件名的列？

有谁知道如何将源文件名添加为胶水作业中的列？我们创建了一个流程，在其中抓取 S3 中的一些文件以创建架构。然后我们编写了一个转换文件的作业......

amazon-web-services apache-spark pyspark aws-glue

回答 5 投票 0

AWS 胶水。如何为作业书签创建复合键？

我有一个带有表的 JDBC 源 (PostgreSQL)，我想通过 Glue 获取该表。我的表有列： id（大整型）名称（字符串）更新时间（时间戳）我已经把桌子摆在...

aws-glue

回答 2 投票 0

AWS Glue 中的 JSON 数组字段更改为“double/int/string/struct”格式

我有一个来自网上的JSON文件。 { "国际民航组织": "f3b100", “noRegData”：正确， “时间戳”：1690848000， “痕迹”： [ [ 51213.77, 39.0...

amazon-web-services apache-spark aws-glue

回答 1 投票 0

在加载到 AWS Glue 笔记本之前截断表

我发现可以做到这一点，但是使用redshift如何使用spark或glue目录以不同的方式完成它？我在加载表格之前尝试截断表格时遇到问题...

pyspark apache-spark-sql aws-glue

回答 1 投票 0

Redshift Spectrum 查询失败，并显示解析的清单不是有效的 JSON 对象

我有一个带有 5 个前缀/“子文件夹”的 S3 存储桶，每个前缀/“子文件夹”都包含一组从旧数据库导出的 CSV 文件。 CSV 文件已被抓取并创建了 Glue 数据库...

aws-glue amazon-redshift-spectrum

回答 1 投票 0

第一次手动上传后定期触发S3上传事件

我设计了一个解决方案，通过事件通知触发手动 S3 文件上传的 lambda 函数。我的 Lambda 根据上传的文件处理一些数据。我现在想三...

amazon-s3 aws-lambda aws-glue

回答 1 投票 0

从 AWS 中的外部 API 收集大量数据

我正在 AWS 中创建一个无服务器应用程序，需要将通过外部 API 收集的一些数据存储到 DynamoDB 实例中。我试图通过 Lambda 函数来实现它，但是数据......

amazon-web-services aws-lambda amazon-dynamodb aws-glue amazon-appflow

回答 1 投票 0

如何将两个 write_dynamic_frame.from_options 合并到一个事务中？

我正在使用 Glue 和 pyspark。我正在写这样的两个表： glueContext.write_dynamic_frame.from_options( 框架=DynamicFrame.fromDF(df1,glueContext,“df1”),

pyspark transactions aws-glue

回答 1 投票 0

将具有 UTC 偏移量的字符串转换为 Spark 时间戳偏移量

我正在尝试使用Glue使用sparksql（spark cluster 3.0）将来自s3/csv文件的字符串转换为aurora mysql csv 中的现有字符串值：20231021134021+0100 预计时间戳：2023-10-...

apache-spark apache-spark-sql aws-glue amazon-aurora

回答 1 投票 0

aws-glue 相关问题

最新问题