aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

已成功导入 Glue 脚本的 Python 包，但未成功导入 Lambda 函数

我的 S3 存储桶上有一个名为 pg8000.zip 的 .zip 文件： mybucket/devops/pg8000.zip 它目前用于 Glue 4.0 脚本，如下所示，在 Python 库字段中： s3://mybucket/devops/...

python amazon-web-services aws-lambda aws-glue pg8000

回答 1 投票 0

AWS Glue：ModuleNotFoundError：没有名为“data_transformations_app”的模块

我正在 AWS 上运行 ETL 粘合作业。它指的是 S3 中的一个文件夹，其中包含 zip 文件中的 main 函数。路径是正确的，我已经检查过多次了。出于某种原因，我不断...

python amazon-web-services amazon-s3 aws-glue data-engineering

回答 1 投票 0

awsglue 是否直接从 eventbridge 接受事件

您可以将事件直接从AWS事件桥传递到AWS胶水吗？ AWSglue是否每次都会创建一个新的集群来处理事件？该事件的处理时间是多少？

aws-glue

回答 1 投票 0

使用 AWS Glue Crawler 创建列名称时删除/重命名特殊字符

我正在使用 AWS Glue Crawler 爬网 S3 存储桶，它在 Athena 中创建表架构。我了解 Athena 不支持具有 \（反斜杠）等特殊字符的列名称。是

amazon-web-services amazon-ec2 aws-glue

回答 1 投票 0

将表从 AWS PostgreSQL 复制到 Redshift 的最佳方法

我正在寻找一种将许多表从AWS PostgreSQL复制到Redshift数据库的最佳方法，如下要求： -我们需要将大约 90 个表从 7 个 AWS PostgreSQL 数据库复制到 1 个 Redshift 数据库 -完整

postgresql amazon-web-services amazon-redshift aws-glue data-migration

回答 1 投票 0

我们可以在 AWS Glue 中使用 java 进行 ETL 吗？

我们可以在 AWS Glue 中使用 java 进行 ETL 吗？ Glue ETL 编程似乎只有两种选择，即 Python 和 Scala。

aws-glue

回答 2 投票 0

目录中不存在胶水表

我正在将 json 文件转换为 parquet 格式，但收到错误“Glue Table 不存在”以下是代码：将 awswrangler 导入为 wr 将 pandas 导入为 pd 导入 urllib.parse 小鬼...

python aws-lambda etl aws-glue

回答 1 投票 0

我应该在 EMR 上使用 AWS Glue 或 Spark 将二进制数据处理为 parquet 格式吗

我的工作要求是从传感器读取二进制数据并为 Analytics 生成镶木地板输出结果。对于存储，我选择了 s3 和 Dynamodb。对于处理引擎，我很困惑...

apache-spark pyspark binary aws-glue amazon-emr

回答 2 投票 0

是否有一种轻松的方法将现有 Parquet 文件迁移到新架构？我希望更新 AWS Glue 表列数据类型

背景我们使用 AWS Glue 4.0 进行 ETL 处理作业。每个 Glue 作业 (PySpark) 都会读取和写入 AWS Glue 表。这些表是使用 CloudFormation 模板定义的，并将数据存储为 P...

amazon-s3 database-migration aws-glue parquet pyspark-schema

回答 1 投票 0

胶水作业从 Redshift 读取大量数据时出现性能问题

我正在尝试运行查询以通过 AWS Glue 作业从 redshift 表中读取数据。当它从表中读取数据时，它创建只有 1 个分区的数据帧，并且需要花费大量时间来读取......

amazon-web-services apache-spark pyspark apache-spark-sql aws-glue

回答 1 投票 0

AWS Glue 中的可选作业参数？

如何为 AWS Glue 作业实施可选参数？我创建了一个作业，当前有一个字符串参数（ISO 8601 日期字符串）作为 ETL 作业中使用的输入。我会...

python amazon-web-services aws-glue

回答 8 投票 0

AWS：使用可执行文件处理从 S3 输入存储桶到 S3 输出存储桶的所有数据

我有以下用例：在 S3 输入存储桶上，我有大量日志文件（例如 100K 对象中的 5 TB）。我需要使用可转换的自定义可执行文件来处理这些日志文件...

amazon-web-services aws-glue

回答 2 投票 0

AWS Glue 作业输入参数

我对 AWS 比较陌生，这可能是一个不太技术性的问题，但目前 AWS Glue 注明最多允许创建 25 个工作岗位。我们正在加载一系列表格，每个表格......

amazon-web-services aws-glue

回答 2 投票 0

运行 Glue ETL 作业时出现 CommandFailedException

当我尝试运行 Glue ETL 作业时，出现以下错误： CommandFailedException：脚本文件不存在 s3://my-bucket/my-script.py 我仔细检查了路径，它是正确的。我可以看到...

aws-glue

回答 1 投票 0

AWS Sagemaker Jupyter 笔记本中的记录器输出

我想查看我在 AWS Sagemaker JupyterLab 笔记本（使用 Glue 开发终端节点）内创建的自定义日志。我想将它们视为笔记本单元的输出。我试过了...

python jupyter-notebook aws-glue amazon-sagemaker jupyter-lab

回答 2 投票 0

为什么 Python Glue Job 会为我的 Job 参数抛出 KeyError？

我定义了一个 Python Shell 类型的简单 Glue Job：导入系统从 awsglue.utils 导入 getResolvedOptions args = getResolvedOptions(sys.argv, [ '测试参数' ]）值 = args["测试-

python aws-glue

回答 1 投票 0

起始位置和检查点的组合在 Kinesis Data Streams 中如何工作？

我正在将 Glue Streaming 作业与 Kinesis Data Stream 结合使用。我希望我的胶水作业始终从最后一个未处理的记录中读取（以防作业出现故障并重新启动）。相关代码- df =glueContext.

amazon-web-services aws-glue amazon-kinesis

回答 1 投票 0

将 Spark 数据帧转换为 awsglue 动态框架

我尝试将我的 Spark 数据帧转换为动态以输出为glueparquet 文件，但我收到错误 “DataFrame”对象没有属性“fromDF”” 我的代码大量使用 Spark 数据帧。是

apache-spark pyspark aws-glue

回答 3 投票 0

从本地 Spark 访问 AWS Glue

有什么方法可以针对 AWS Glue 运行本地主 Spark SQL 查询吗？在我的本地 PC 上启动此代码： SparkSession.builder() .master("本地") .enableHiveSupport() .config("蜂巢.

amazon-web-services apache-spark apache-spark-sql aws-glue

回答 2 投票 0

如何将数据从 Glue 移动到 Dynamodb

我们正在为我们的一个仪表板应用程序设计一个大数据解决方案，并认真考虑将 Glue 用于我们的初始 ETL。目前 Glue 支持 JDBC 和 S3 作为目标，但我们的下游

amazon-s3 amazon-dynamodb etl aws-glue

回答 5 投票 0

aws-glue 相关问题

最新问题