aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

AWS CloudWatch Logs 未创建

我正在尝试使用 AWS Glue 运行 ETL 作业,将数据从 Redshift 获取到 S3。 当我运行爬网程序时,它成功连接到 Redshift 并获取架构信息。相关日志已创建...

回答 2 投票 0

无法在 AWS datalake/glue UI 中查看表

显示已创建表格的图像。 (爬虫快照) 即使爬网程序日志指出 - 已创建 2 个表,也无法在 AWS datalake/glue UI 中的数据库选项卡下查看表。 2020-09-...

回答 1 投票 0

Glue 数据库存在,但在数据目录中不可见

我在 AWS Glue 服务中偶然发现了一个奇怪的问题。我手动创建了一个数据库,然后将其删除。现在,当我尝试再次创建具有相同名称的数据库时,我得到以下信息: 然而,有一个...

回答 1 投票 0

Delta Lake 表 PySpark/Glue 目录 EMR

使用 Spark 创建数据库,位置参数指向 s3 存储桶路径,创建数据帧并使用 saveAsTable 写入增量,数据库和表都显示在指向 s3 的粘合点中

回答 2 投票 0

我在尝试运行作业时遇到启动错误

因此,我尝试在 AWS 上运行作业,但每次运行都会失败,并收到以下错误: 我不确定该去哪里查看或问题出在哪里。我是新人,仍在学习,请指导

回答 1 投票 0

ImportError:在 AWS Glue Jupyter Notebook(Docker 容器)中导入 DeltaTable 时没有名为“pyspark.errors”的模块

您好 Stack Overflow 社区, 当我尝试从 Jupyter Notebook 中的 delta.tables 模块导入 DeltaTable 时,遇到了一个具有挑战性的问题。 我在 MacBook 上本地运行 AWS Glue...

回答 1 投票 0

读取具有不同架构的 CSV 文件

我在S3上有两个csv文件: #a1.csv 甲、乙 3,4 和 # b2.csv 一个,c 1、“文字” 我想立即读取它们,确保最终的数据帧包含所有文件中的所有列,

回答 1 投票 0

从 Lambda 读取胶水目录

是否可以将 lambda 连接到粘合数据目录以查询目录表中的数据?如果是,我该如何连接? 我正在尝试将 Glue 目录连接到 Lambda 函数来查询...

回答 1 投票 0

pyspark.sql.utils.IllegalArgumentException:错误级别“<BUILT-IN FUNCTION ALL>”

我正在尝试通过私有链接在 AWS Glue 和 Snowflake 之间建立连接 我已经配置了 VPC 终端节点,并且可以通过glue进行连接,而无需使用pyspark 代码是

回答 1 投票 0

AWS Glue 4.0 调用 DynamicFrame.fromDF 时失败

我正在尝试使用 Glue 的 fromDF 方法将 Python 3.10 中的 Spark 数据帧转换为动态帧 从 awsglue.dynamicframe 导入 DynamicFrame DynamicFrame.fromDF(frame,glue_context,“...

回答 1 投票 0

如何使用 AWS Glue 将数据从 Amazon S3 复制到 DDB

我正在关注有关如何将 DDB 表从一个帐户转移到另一个帐户的 AWS 文档。有两个步骤: 将 DDB 表导出到 Amazon S3 使用 Glue 作业从 Amazon S3 读取文件...

回答 2 投票 0

terraform 不检测 lambda 源文件的更改

在我的 main.tf 中,我有以下内容: 数据“模板文件”“lambda_script_temp_file”{ 模板 = "${file("../../../fn/lambda_script.py")}" } 数据“模板文件”“库临时文件”{ 模板...

回答 3 投票 0

比较S3中的两个文件内容

我在S3中有两个avro文件,我想比较内容的差异。基本上这些文件会有增量差异,我想知道这些差异以供进一步分析。有没有s3原生的

回答 1 投票 0

从 Databricks 中的 S3 读取增量表时出现问题 (_delta_log)

我在尝试从 Databricks 中的 S3 存储桶读取某些 Delta 表时遇到了挑战。我的目标是将 Delta 表加载到 Databricks 中,而某些表(如 table_1)加载

回答 1 投票 0

粘合不读取值带有双引号 (") 的行

我正在从目录表创建一个动态框架,以便将数据加载到 Redshift。 当 CSV 文件中的值带有双引号时,Glue 不会读取该行。有什么解决方法可以让 Glue 重新...

回答 1 投票 0

小部件无法工作 awsgluejupyternotebook

我在 awsgluejupyter 笔记本中尝试了下面的代码来获取小部件文本框,但我得到了文本上下文,但我期望文本框。 导入 ipywidgets 作为小部件 从 IPython.display 导入显示

回答 1 投票 0

使用 DataFrameWriterV2.overwrite() 方法覆盖 Iceberg 表中的行

我在 AWS Glue 中有一个 Iceberg 表,使用 pyspark,每次写入 DataFrame 时,我需要仅覆盖表中的现有行。我发现了 DataFrameWriterV2.overwrite() 方法...

回答 1 投票 0

如何将 AWS Glue SQL 查询转换配置为 TRUNCATE,然后加载目标数据库表

我需要使用 Glue Visual ETL 编辑器而不是 PySpark 或 Scala 来完成此操作。 在图 1 中,我在 Glue 目录中定义了一个 SQL Server RDS 目标,并将其配置为该目标的父节点...

回答 1 投票 0

AWS Glue:将其他 Python 模块传递给作业 - ModuleNotFoundError

我正在尝试运行 Glue 作业(版本 4)来执行简单的数据批处理。我正在使用 Glue 环境未提供的其他 python 库 - 翻译和 langdetect。

回答 1 投票 0

AWS Glue 数据预览执行期间出现存储配额超出错误

我需要帮助来解决尝试在 AWS Glue Visual ETL 中运行数据预览时发生的错误。该错误消息表明数据预览作业的执行存在问题。 错误

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.