AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。
AWS Glue 爬网程序 - 仅爬网新文件夹 - 内部服务异常
我创建了一个胶水爬行器每 6 小时运行一次,我使用“仅爬行新文件夹”选项。每次爬虫运行时都会失败并出现“内部服务异常”错误。 我什么...
AWSGlue:使用 pyhthon-gnupg 解密大文件(50GB)
上下文: 我们正在接收 PGP 加密的文件,需要使用 pyhon-gnupg 模块在 AWS Glue 中解密 问题: AWSGlue 与 PySpark 能够解密最大 2GB 的文件,但我们...
运行此方法时 ## 读取来自 Amazon S3 的传入数据 def readFromRawBucket(bucket_name,bucket_prefix,schema_name,table_name): 返回glue_context.create_dynamic_frame_from_options( ...
spark.sql 导致 IllegalArgumentException
我尝试在本地的glue python Spark笔记本中运行以下方法: ## 在 AWS Glue 数据目录上创建数据库 def createGlueDataCatalogDatabase(db_name,bucket_name): 查询 = 模板(...
是否可以在awsglue脚本中使用python库chispa
我需要验证 csv/parquet 文件从 S3 到 postgres 的加载。我从双方都得到了数据框。需要做数据完整性检查。 我希望使用 chispa 库的assert_df_equality 来做...
我无法更改Hudi表的列名。 Spark.sql("ALTER TABLE customer_db.customer RENAME COLUMN subid TO subidentifier") 无法更改列名称。 清晰简洁
希望使用 AWS Glue 市场 Snowflake 连接器。可以轻松加载和推送数据,但想要调用存储过程。错误“意外的“呼叫””
我也无法找到有关 AWS Glue 市场 Snowflake 连接器的任何文档。我知道它下面只是 Snowflake Spark 连接器,所以我查看了其中的一些
InvalidInputException:Delta 目标不得同时将 createNativeDeltaTable 和 writeManifest 标志启用为 true
我正在尝试编写 Terrafrom 代码来创建 AWS Glue Crawler。 根据文档,它具有 create_native_delta_table 和 write_manifest 选项。 这是我与 AWS Glue Crawler 相关的代码部分,...
将数据从 DynamDB 提取到 S3 中的 Hive 表期间,在 Array Struct 字段中获取属性名称时出现问题
我正在尝试使用 AWS Glue 将数据从 DynamoDB 表提取到通过 S3 构建的 Hive 表。 来自来源的数据如下所示 - { “id”:“123”, “姓名”:“...
我已开始使用笔记本在 AWS Glue 中开发 ETL 作业来验证每个步骤的结果。当一次运行一个单元时,作业运行正确。但是,当使用运行选项时...
使用 pyspark 在gluejob中读取csv单元时出现问题
代码实际上正在工作,但是当我选择数据帧时,我得到的结果不是 37226000167(单元格的值),而是 3,72E+10。 我尝试过设置一个模式来强制粘合...
awsglue 版本 0.9 python 和 scala 脚本测试
我们将致力于将 awsglue 0.9 版本升级到 4.0。作为分析的一部分,我们正在检查要完成的更改。出于测试目的,我们创建了一些示例 awsglue 0.9 python 和 sc...
StorageLevel 'MEMORY_AND_DISK_SER' 在 Spark 3.0 中是否已弃用?
我正在将我的pyspark项目从2.4版本更改为3.0,当我运行我的代码时。更详细地说,我正在从 AWS Glue 2.0 过渡到 4.0 df.persist(StorageLevel.MEMORY_AND_DISK_SER) 我收到错误 ...
使用 PyIceberg 和 Glue Catalog 在 S3 上创建 Iceberg 表
我正在尝试使用 Glue Catalog 和 PyIceberg 库在 S3 上创建 Iceberg 表。我的目标是定义架构、分区规范,然后使用 PyIceberg 创建表。
我正在 AWS GLUE 中运行查询,并使用 FILTER 选项将输出加载到 4 个不同的文件中,如下所示: df =glueContext.read.format("jdbc").option("driver",
我正在尝试从 AWS CLI 运行 AWS Glue 命令以从 EC2 实例开始我的工作。这是命令 awsgluestart-job-run--作业名称Connection_Test 但我收到以下错误:
如何在 AWS Glue Visual 作业中使用请求者付款
我们将数据库存储在另一个部门的 aws 账户中,我们希望将其用作在同一公司内构建粘合作业的来源。我可以像我一样访问他们的数据库并在 athena 中进行查询
AWS DataQuality 规则应该失败,但因空值而通过
我有一个 8 列的 csv 文件。在列中我故意删除了一些单元格。 当我尝试运行 Glue DataQuality 作业时,对于 IsComplete,结果通过了(这是不应该的)
如何将 AWS Glue Crawler 连接到 mongodb
我们在让 AWS Glue Crawler 连接到我们的 mongodb 时遇到问题。 mongodb 是公开访问的 但我们得到以下错误 [cb423c7c-b0ef-4649-92ea-c784ddd4aa96] 错误:
在 AWS Glue 上的作业运行监控页面中收到“加载数据时出错”
我在 AWS Glue 的作业运行监控页面中收到“加载数据时出错”的消息。当我以“管理员”用户身份登录时可以看到数据,但登录时看不到数据...