aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

基于模式从 S3 返回文件的更快方法

我有一个 S3 存储桶，我只想根据模式返回文件。存储桶中的所有文件的文件名中都有与其关联的日期。例如文件名是 2023-10-18-edewj324lkj...

python amazon-web-services amazon-s3 aws-glue

回答 1 投票 0

使用 Pyspark 代码通过 Glue Job 处理具有大量数据的多个文件

我有一个场景，我们必须通过 Glue Job 处理 9 个文件。目前我们正在使用 Pyspark 并将所有 9 个文件读取到单个数据帧中。文件大小约为 11GB，管道...

amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

py4j 错误“调用 z:com.amazonaws.services.glue.util.Job.init 时发生错误。”

我正在尝试执行 awsgluespark 作业以将一些数据从表读取到 S3 位置。但我收到如下堆栈跟踪所示的错误：“调用 z:com.amazonaws.serv 时发生错误...

amazon-web-services pyspark aws-glue

回答 1 投票 0

AWS Glue 中的 Spark 作业失败 | “调用 o86.getSink 时发生错误。连接尝试失败。”

我尝试将 csv 文件中的数据从 S3 存储迁移到 Redshift 集群中的表。我参考了在 AW 中使用可视模式构建块后自动生成的代码...

python pyspark amazon-redshift aws-glue

回答 1 投票 0

将 AWS Glue 或 S3 中的数据高效索引到 RDS

我在 AWS Glue 中使用 PySpark 执行了一些大型 ETL 作业，将 .parquet 数据集输出到 S3 存储桶中。我想索引这些数据（无论是直接来自 Glue 还是通过使用原始数据的其他方式）

amazon-web-services amazon-s3 jdbc amazon-rds aws-glue

回答 1 投票 0

AWS Data Wrangler - wr.athena.read_sql_query 不起作用

我开始使用 AWS Data Wrangler lib （https://aws-data-wrangler.readthedocs.io/en/stable/what.html）在 AWS Athena 上执行查询并在我的 AWS Glue python shell 作业中使用它们的结果。 ...

amazon-web-services aws-glue amazon-athena

回答 4 投票 0

如何将数据库从 DynamoDB 传输到 Aurora PostgreSQL？

您好 Stack Overflow 社区，我目前正在开发一个项目，需要将数据从 DynamoDB 迁移到 Aurora PostgreSQL。我过去曾尝试将 PostgreSQL 连接到 Lambda 解析器

postgresql amazon-dynamodb aws-glue amazon-aurora amazon-data-pipeline

回答 1 投票 0

测试不支持自定义驱动程序的连接 (Salesforce JDBC)

我在尝试使用存储在 S3 存储桶中的 CData JDBC 试用 JAR 在 AWS Glue 中为 Salesforce 驱动程序设置自定义 JDBC 连接时遇到问题。目标是连接到 Salesforce

jdbc salesforce aws-glue cdata

回答 1 投票 0

AWS Glue：测试不支持自定义驱动程序的连接 (Salesforce JDBC)

我在尝试使用存储在 S3 存储桶中的 CData JDBC 试用 JAR 在 AWS Glue 中为 Salesforce 驱动程序设置自定义 JDBC 连接时遇到问题。目标是连接到 Salesforce

jdbc salesforce aws-glue cdata

回答 1 投票 0

在 Glue 表上创建 presto 视图导致数据类型无效的错误：整数

我在 Glue 目录 table_a 中有一个表，它有 2 列 - 柱子数据类型员工 ID 大整数员工姓名细绳年龄整数我正在尝试创建一个 presto 视图来查询 Athena 上的数据。创建或替换

sql aws-glue amazon-athena

回答 1 投票 0

保存文件 parquet pyspark 时出现 java.lang.StackOverflowError

我运行了一个胶水作业，在将文件保存到 parquet 时存在错误 java.lang.StackOverflowError 。我的数据框有超过 40 万行和 250 列。这是日志：文件“/tmp/glue-job.py”，

apache-spark pyspark aws-glue parquet

回答 1 投票 0

通过 Glue 将 Snowflake 中的项目插入 DynamoDB 中

目前我正在编写一个脚本，该脚本从 Snowflake 查询数据并需要将其插入到胶水脚本中的 DDB 表中。我可以使用 Snowflake 连接器轻松地从 Snowflake 进行查询。我的桌子...

python amazon-dynamodb snowflake-cloud-data-platform aws-glue

回答 1 投票 0

PySpark：MutableLong 无法转换为 MutableInt（数据帧中没有 long）

我正在尝试使用 boto3 中的 Glue 客户端从 PySpark 中的 Athena 读取配置文件表，并检查它是否为空。为什么 Spark 在将 Int 转换为 Long 时出现错误，知道我没有 Long 类型......

pyspark hive parquet aws-glue amazon-athena

回答 1 投票 0

如何在 pycharm 解释器中安装 python 包

我在本地使用 pycharm professional 设置了 AWS 胶水作业。要在 Windows 本地运行胶水作业，我必须安装 pycharm professional 并拉取 AWSglue docker 镜像 amazon/aws-glue-libs:

docker pycharm aws-glue

回答 1 投票 0

如何使用 Python 将 Spark 列中包含的 StringType 形式的二进制文件转换为 UUID 字符串？

我们正在使用 AWS Glue 构建一个片段，它将 Aurora RDS 中的表卸载到 CSV 文件，稍后必须将其转换为 Parquet。为了卸载，我们使用 SELECT * FROM TableA INTO OUTFILE S3 's3_...

python amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

AWS Glue 数据目录表列的“参数”字段是什么？

Glue 数据目录表的 AWS 文档指出，一列有四个字段：姓名类型评论参数前三个很容易理解；这是我的摘录

amazon-web-services pyspark aws-cloudformation aws-glue parquet

回答 1 投票 0

在 AWS GLUE pyspark 中运行自定义 MYSQL 查询

我有一个用例，在 mysql 表中插入一行后，我想取回最后插入的行的 id。我想在 awsglue 中运行 MYSQL 查询以实现相同的目的。我是 pyspark 新手，但不是

amazon-web-services pyspark aws-glue

回答 2 投票 0

我需要在 AWS Glue for Athena 中执行索引维护吗

我是否需要对 AWS Glue 中存在的 Athena 索引进行维护？这是一个普遍问题，但我在任何地方都找不到答案。我尝试了MSCK修复表。这也能发挥作用吗

amazon-web-services indexing aws-glue amazon-athena

回答 1 投票 0

AWS Glue Spark 应用程序日志仍在处理中

我正在使用 AWS Glue 运行 PySpark 作业。作业成功完成（最后一步是将数据帧写入 S3，我确实看到文件已创建）。问题是我没有“完成”...

pyspark aws-glue

回答 1 投票 0

Athena 查询不带结构的 JSON 数组

在 Athena 中，如何构造一个 select 语句来按时间戳查询以下内容？数据存储为字符串 [{ “数据”： [{ “ct”：“26.7” }, { &

sql aws-glue amazon-athena presto

回答 1 投票 0

aws-glue 相关问题

最新问题