aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

基于模式从 S3 返回文件的更快方法

我有一个 S3 存储桶,我只想根据模式返回文件。存储桶中的所有文件的文件名中都有与其关联的日期。例如文件名是 2023-10-18-edewj324lkj...

回答 1 投票 0

使用 Pyspark 代码通过 Glue Job 处理具有大量数据的多个文件

我有一个场景,我们必须通过 Glue Job 处理 9 个文件。目前我们正在使用 Pyspark 并将所有 9 个文件读取到单个数据帧中。文件大小约为 11GB,管道...

回答 1 投票 0

py4j 错误“调用 z:com.amazonaws.services.glue.util.Job.init 时发生错误。”

我正在尝试执行 awsgluespark 作业以将一些数据从表读取到 S3 位置。 但我收到如下堆栈跟踪所示的错误:“调用 z:com.amazonaws.serv 时发生错误...

回答 1 投票 0

AWS Glue 中的 Spark 作业失败 | “调用 o86.getSink 时发生错误。连接尝试失败。”

我尝试将 csv 文件中的数据从 S3 存储迁移到 Redshift 集群中的表。我参考了在 AW 中使用可视模式构建块后自动生成的代码...

回答 1 投票 0

将 AWS Glue 或 S3 中的数据高效索引到 RDS

我在 AWS Glue 中使用 PySpark 执行了一些大型 ETL 作业,将 .parquet 数据集输出到 S3 存储桶中。 我想索引这些数据(无论是直接来自 Glue 还是通过使用原始数据的其他方式)

回答 1 投票 0

AWS Data Wrangler - wr.athena.read_sql_query 不起作用

我开始使用 AWS Data Wrangler lib (https://aws-data-wrangler.readthedocs.io/en/stable/what.html) 在 AWS Athena 上执行查询并在我的 AWS Glue python shell 作业中使用它们的结果。 ...

回答 4 投票 0

如何将数据库从 DynamoDB 传输到 Aurora PostgreSQL?

您好 Stack Overflow 社区, 我目前正在开发一个项目,需要将数据从 DynamoDB 迁移到 Aurora PostgreSQL。我过去曾尝试将 PostgreSQL 连接到 Lambda 解析器

回答 1 投票 0

测试不支持自定义驱动程序的连接 (Salesforce JDBC)

我在尝试使用存储在 S3 存储桶中的 CData JDBC 试用 JAR 在 AWS Glue 中为 Salesforce 驱动程序设置自定义 JDBC 连接时遇到问题。目标是连接到 Salesforce

回答 1 投票 0

AWS Glue:测试不支持自定义驱动程序的连接 (Salesforce JDBC)

我在尝试使用存储在 S3 存储桶中的 CData JDBC 试用 JAR 在 AWS Glue 中为 Salesforce 驱动程序设置自定义 JDBC 连接时遇到问题。目标是连接到 Salesforce

回答 1 投票 0

在 Glue 表上创建 presto 视图导致数据类型无效的错误:整数

我在 Glue 目录 table_a 中有一个表,它有 2 列 - 柱子 数据类型 员工 ID 大整数 员工姓名 细绳 年龄 整数 我正在尝试创建一个 presto 视图来查询 Athena 上的数据。 创建或替换

回答 1 投票 0

保存文件 parquet pyspark 时出现 java.lang.StackOverflowError

我运行了一个胶水作业,在将文件保存到 parquet 时存在错误 java.lang.StackOverflowError 。 我的数据框有超过 40 万行和 250 列。 这是日志: 文件“/tmp/glue-job.py”,

回答 1 投票 0

通过 Glue 将 Snowflake 中的项目插入 DynamoDB 中

目前我正在编写一个脚本,该脚本从 Snowflake 查询数据并需要将其插入到胶水脚本中的 DDB 表中。 我可以使用 Snowflake 连接器轻松地从 Snowflake 进行查询。我的桌子...

回答 1 投票 0

PySpark:MutableLong 无法转换为 MutableInt(数据帧中没有 long)

我正在尝试使用 boto3 中的 Glue 客户端从 PySpark 中的 Athena 读取配置文件表,并检查它是否为空。为什么 Spark 在将 Int 转换为 Long 时出现错误,知道我没有 Long 类型......

回答 1 投票 0

如何在 pycharm 解释器中安装 python 包

我在本地使用 pycharm professional 设置了 AWS 胶水作业。要在 Windows 本地运行胶水作业,我必须安装 pycharm professional 并拉取 AWSglue docker 镜像 amazon/aws-glue-libs:

回答 1 投票 0

如何使用 Python 将 Spark 列中包含的 StringType 形式的二进制文件转换为 UUID 字符串?

我们正在使用 AWS Glue 构建一个片段,它将 Aurora RDS 中的表卸载到 CSV 文件,稍后必须将其转换为 Parquet。 为了卸载,我们使用 SELECT * FROM TableA INTO OUTFILE S3 's3_...

回答 1 投票 0

AWS Glue 数据目录表列的“参数”字段是什么?

Glue 数据目录表的 AWS 文档指出,一列有四个字段: 姓名 类型 评论 参数 前三个很容易理解;这是我的摘录

回答 1 投票 0

在 AWS GLUE pyspark 中运行自定义 MYSQL 查询

我有一个用例,在 mysql 表中插入一行后,我想取回最后插入的行的 id。我想在 awsglue 中运行 MYSQL 查询以实现相同的目的。我是 pyspark 新手,但不是

回答 2 投票 0

我需要在 AWS Glue for Athena 中执行索引维护吗

我是否需要对 AWS Glue 中存在的 Athena 索引进行维护?这是一个普遍问题,但我在任何地方都找不到答案。 我尝试了MSCK修复表。这也能发挥作用吗

回答 1 投票 0

AWS Glue Spark 应用程序日志仍在处理中

我正在使用 AWS Glue 运行 PySpark 作业。作业成功完成(最后一步是将数据帧写入 S3,我确实看到文件已创建)。 问题是我没有“完成”...

回答 1 投票 0

Athena 查询不带结构的 JSON 数组

在 Athena 中,如何构造一个 select 语句来按时间戳查询以下内容?数据存储为字符串 [{ “数据”: [{ “ct”:“26.7” }, { &

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.