aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

AWS Glue 爬网程序 - 仅爬网新文件夹 - 内部服务异常

我创建了一个胶水爬行器每 6 小时运行一次,我使用“仅爬行新文件夹”选项。每次爬虫运行时都会失败并出现“内部服务异常”错误。 我什么...

回答 2 投票 0

AWSGlue:使用 pyhthon-gnupg 解密大文件(50GB)

上下文: 我们正在接收 PGP 加密的文件,需要使用 pyhon-gnupg 模块在 AWS Glue 中解密 问题: AWSGlue 与 PySpark 能够解密最大 2GB 的文件,但我们...

回答 1 投票 0

AWS Glue 数据帧构造函数警告

运行此方法时 ## 读取来自 Amazon S3 的传入数据 def readFromRawBucket(bucket_name,bucket_prefix,schema_name,table_name): 返回glue_context.create_dynamic_frame_from_options( ...

回答 2 投票 0

spark.sql 导致 IllegalArgumentException

我尝试在本地的glue python Spark笔记本中运行以下方法: ## 在 AWS Glue 数据目录上创建数据库 def createGlueDataCatalogDatabase(db_name,bucket_name): 查询 = 模板(...

回答 1 投票 0

是否可以在awsglue脚本中使用python库chispa

我需要验证 csv/parquet 文件从 S3 到 postgres 的加载。我从双方都得到了数据框。需要做数据完整性检查。 我希望使用 chispa 库的assert_df_equality 来做...

回答 1 投票 0

无法更改 AWS 中 Hudi 表的列名称

我无法更改Hudi表的列名。 Spark.sql("ALTER TABLE customer_db.customer RENAME COLUMN subid TO subidentifier") 无法更改列名称。 清晰简洁

回答 3 投票 0

希望使用 AWS Glue 市场 Snowflake 连接器。可以轻松加载和推送数据,但想要调用存储过程。错误“意外的“呼叫””

我也无法找到有关 AWS Glue 市场 Snowflake 连接器的任何文档。我知道它下面只是 Snowflake Spark 连接器,所以我查看了其中的一些

回答 1 投票 0

InvalidInputException:Delta 目标不得同时将 createNativeDeltaTable 和 writeManifest 标志启用为 true

我正在尝试编写 Terrafrom 代码来创建 AWS Glue Crawler。 根据文档,它具有 create_native_delta_table 和 write_manifest 选项。 这是我与 AWS Glue Crawler 相关的代码部分,...

回答 1 投票 0

将数据从 DynamDB 提取到 S3 中的 Hive 表期间,在 Array Struct 字段中获取属性名称时出现问题

我正在尝试使用 AWS Glue 将数据从 DynamoDB 表提取到通过 S3 构建的 Hive 表。 来自来源的数据如下所示 - { “id”:“123”, “姓名”:“...

回答 1 投票 0

AWS Glue 启动错误 | java.net.URISyntaxException:索引 0 处的方案名称中存在非法字符:s3://py-function-bucket/aws_custom_functions.zip

我已开始使用笔记本在 AWS Glue 中开发 ETL 作业来验证每个步骤的结果。当一次运行一个单元时,作业运行正确。但是,当使用运行选项时...

回答 2 投票 0

使用 pyspark 在gluejob中读取csv单元时出现问题

代码实际上正在工作,但是当我选择数据帧时,我得到的结果不是 37226000167(单元格的值),而是 3,72E+10。 我尝试过设置一个模式来强制粘合...

回答 1 投票 0

awsglue 版本 0.9 python 和 scala 脚本测试

我们将致力于将 awsglue 0.9 版本升级到 4.0。作为分析的一部分,我们正在检查要完成的更改。出于测试目的,我们创建了一些示例 awsglue 0.9 python 和 sc...

回答 1 投票 0

StorageLevel 'MEMORY_AND_DISK_SER' 在 Spark 3.0 中是否已弃用?

我正在将我的pyspark项目从2.4版本更改为3.0,当我运行我的代码时。更详细地说,我正在从 AWS Glue 2.0 过渡到 4.0 df.persist(StorageLevel.MEMORY_AND_DISK_SER) 我收到错误 ...

回答 1 投票 0

使用 PyIceberg 和 Glue Catalog 在 S3 上创建 Iceberg 表

我正在尝试使用 Glue Catalog 和 PyIceberg 库在 S3 上创建 Iceberg 表。我的目标是定义架构、分区规范,然后使用 PyIceberg 创建表。

回答 1 投票 0

在 AWS Glue piepline 中执行筛选时出错

我正在 AWS GLUE 中运行查询,并使用 FILTER 选项将输出加载到 4 个不同的文件中,如下所示: df =glueContext.read.format("jdbc").option("driver",

回答 1 投票 0

Amazon Glue 作业出现连接超时错误

我正在尝试从 AWS CLI 运行 AWS Glue 命令以从 EC2 实例开始我的工作。这是命令 awsgluestart-job-run--作业名称Connection_Test 但我收到以下错误:

回答 2 投票 0

如何在 AWS Glue Visual 作业中使用请求者付款

我们将数据库存储在另一个部门的 aws 账户中,我们希望将其用作在同一公司内构建粘合作业的来源。我可以像我一样访问他们的数据库并在 athena 中进行查询

回答 1 投票 0

AWS DataQuality 规则应该失败,但因空值而通过

我有一个 8 列的 csv 文件。在列中我故意删除了一些单元格。 当我尝试运行 Glue DataQuality 作业时,对于 IsComplete,结果通过了(这是不应该的)

回答 1 投票 0

如何将 AWS Glue Crawler 连接到 mongodb

我们在让 AWS Glue Crawler 连接到我们的 mongodb 时遇到问题。 mongodb 是公开访问的 但我们得到以下错误 [cb423c7c-b0ef-4649-92ea-c784ddd4aa96] 错误:

回答 1 投票 0

在 AWS Glue 上的作业运行监控页面中收到“加载数据时出错”

我在 AWS Glue 的作业运行监控页面中收到“加载数据时出错”的消息。当我以“管理员”用户身份登录时可以看到数据,但登录时看不到数据...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.