AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。
我有一个 S3 存储桶,我只想根据模式返回文件。存储桶中的所有文件的文件名中都有与其关联的日期。例如文件名是 2023-10-18-edewj324lkj...
使用 Pyspark 代码通过 Glue Job 处理具有大量数据的多个文件
我有一个场景,我们必须通过 Glue Job 处理 9 个文件。目前我们正在使用 Pyspark 并将所有 9 个文件读取到单个数据帧中。文件大小约为 11GB,管道...
py4j 错误“调用 z:com.amazonaws.services.glue.util.Job.init 时发生错误。”
我正在尝试执行 awsgluespark 作业以将一些数据从表读取到 S3 位置。 但我收到如下堆栈跟踪所示的错误:“调用 z:com.amazonaws.serv 时发生错误...
AWS Glue 中的 Spark 作业失败 | “调用 o86.getSink 时发生错误。连接尝试失败。”
我尝试将 csv 文件中的数据从 S3 存储迁移到 Redshift 集群中的表。我参考了在 AW 中使用可视模式构建块后自动生成的代码...
我在 AWS Glue 中使用 PySpark 执行了一些大型 ETL 作业,将 .parquet 数据集输出到 S3 存储桶中。 我想索引这些数据(无论是直接来自 Glue 还是通过使用原始数据的其他方式)
AWS Data Wrangler - wr.athena.read_sql_query 不起作用
我开始使用 AWS Data Wrangler lib (https://aws-data-wrangler.readthedocs.io/en/stable/what.html) 在 AWS Athena 上执行查询并在我的 AWS Glue python shell 作业中使用它们的结果。 ...
如何将数据库从 DynamoDB 传输到 Aurora PostgreSQL?
您好 Stack Overflow 社区, 我目前正在开发一个项目,需要将数据从 DynamoDB 迁移到 Aurora PostgreSQL。我过去曾尝试将 PostgreSQL 连接到 Lambda 解析器
测试不支持自定义驱动程序的连接 (Salesforce JDBC)
我在尝试使用存储在 S3 存储桶中的 CData JDBC 试用 JAR 在 AWS Glue 中为 Salesforce 驱动程序设置自定义 JDBC 连接时遇到问题。目标是连接到 Salesforce
AWS Glue:测试不支持自定义驱动程序的连接 (Salesforce JDBC)
我在尝试使用存储在 S3 存储桶中的 CData JDBC 试用 JAR 在 AWS Glue 中为 Salesforce 驱动程序设置自定义 JDBC 连接时遇到问题。目标是连接到 Salesforce
在 Glue 表上创建 presto 视图导致数据类型无效的错误:整数
我在 Glue 目录 table_a 中有一个表,它有 2 列 - 柱子 数据类型 员工 ID 大整数 员工姓名 细绳 年龄 整数 我正在尝试创建一个 presto 视图来查询 Athena 上的数据。 创建或替换
保存文件 parquet pyspark 时出现 java.lang.StackOverflowError
我运行了一个胶水作业,在将文件保存到 parquet 时存在错误 java.lang.StackOverflowError 。 我的数据框有超过 40 万行和 250 列。 这是日志: 文件“/tmp/glue-job.py”,
通过 Glue 将 Snowflake 中的项目插入 DynamoDB 中
目前我正在编写一个脚本,该脚本从 Snowflake 查询数据并需要将其插入到胶水脚本中的 DDB 表中。 我可以使用 Snowflake 连接器轻松地从 Snowflake 进行查询。我的桌子...
PySpark:MutableLong 无法转换为 MutableInt(数据帧中没有 long)
我正在尝试使用 boto3 中的 Glue 客户端从 PySpark 中的 Athena 读取配置文件表,并检查它是否为空。为什么 Spark 在将 Int 转换为 Long 时出现错误,知道我没有 Long 类型......
我在本地使用 pycharm professional 设置了 AWS 胶水作业。要在 Windows 本地运行胶水作业,我必须安装 pycharm professional 并拉取 AWSglue docker 镜像 amazon/aws-glue-libs:
如何使用 Python 将 Spark 列中包含的 StringType 形式的二进制文件转换为 UUID 字符串?
我们正在使用 AWS Glue 构建一个片段,它将 Aurora RDS 中的表卸载到 CSV 文件,稍后必须将其转换为 Parquet。 为了卸载,我们使用 SELECT * FROM TableA INTO OUTFILE S3 's3_...
Glue 数据目录表的 AWS 文档指出,一列有四个字段: 姓名 类型 评论 参数 前三个很容易理解;这是我的摘录
在 AWS GLUE pyspark 中运行自定义 MYSQL 查询
我有一个用例,在 mysql 表中插入一行后,我想取回最后插入的行的 id。我想在 awsglue 中运行 MYSQL 查询以实现相同的目的。我是 pyspark 新手,但不是
我需要在 AWS Glue for Athena 中执行索引维护吗
我是否需要对 AWS Glue 中存在的 Athena 索引进行维护?这是一个普遍问题,但我在任何地方都找不到答案。 我尝试了MSCK修复表。这也能发挥作用吗
我正在使用 AWS Glue 运行 PySpark 作业。作业成功完成(最后一步是将数据帧写入 S3,我确实看到文件已创建)。 问题是我没有“完成”...
在 Athena 中,如何构造一个 select 语句来按时间戳查询以下内容?数据存储为字符串 [{ “数据”: [{ “ct”:“26.7” }, { &