etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

继续使用静态分配容器的好处

我没有在代码中使用任何堆分配,使用移动语义有什么好处吗? 我是否应该移动任何东西? 模板 constexpr TIterator...

回答 1 投票 0

Flink - 如何将表结果转换为Datastream

我试图查询一个postgresql表,并将其转换为dataStream: StreamExecutionEnvironment bsEnv = StreamExecutionEnvironment.getExecutionEnvironment(); 流表环境 tEnv =

回答 1 投票 0

如何在 Apache Airflow 中的任务之间传输数据?

在airflow中,我有两个任务,第一个任务从API获取24x7数据并将其传递给第二个任务。但在这种情况下,当我的第一个任务连续运行时,它不会触发第二个任务...

回答 1 投票 0

Azure 数据工厂数据流测试连接 Spark 作业失败

我使用链接服务将Azure SQL 数据库连接到Azure 数据工厂数据流。 在 Azure 数据工厂中,链接服务连接已成功建立。 然而,当我做广告时...

回答 1 投票 0

AWS Glue 在顺序运行时输出空文件

我正在尝试自动化 ETL 管道,将数据从 AWS RDS MYSQL 输出到 AWS S3。我目前正在使用 AWS Glue 来完成这项工作。当我从 RDS 到 S3 进行初始加载时。它捕获了所有的数据...

回答 3 投票 0

如何在 Azure 数据工厂中运行 Python ETL 脚本并选择最佳方法?

我目前正在处理 ETL 流程,需要在 Azure 数据工厂 (ADF) 中运行 Python 脚本。该脚本涉及数据提取、转换和加载 (ETL) 任务。我知道...

回答 1 投票 0

Azure 数据工厂编辑数据流按钮不起作用?

在Azure数据工厂->管道->移动和转换->数据流任务中,我熟悉下面的“编辑数据流”按钮来配置数据流任务。但这不起作用

回答 1 投票 0

在 ADF 中,我想在接收器中创建一个表,并使用该表创建主键。我怎样才能做到这一点?

假设我有一个源表Table1,以PK为ID,那么如何在sink中创建与Table1相同的表,其中包含PK ID? 我想首先通过 ADF 创建表,然后使用

回答 1 投票 0

Superset 数据集可以使用多个数据源吗?

我正在评估不同的 BI 解决方案,并且我有一个特定的要求。 我们的设置有多个具有相同架构的 DS,例如客户1DB、客户2DB等 可以在同一个中摄取多个数据库

回答 1 投票 0

Ibis 与 Spark 使用 DataFrame API 对分析数据仓库进行大数据处理?

想象一下以下场景: 我在分析数据仓库中托管了非常大的数据集 该仓库在处理大型分析工作负载方面非常高效,并且可以任意扩展 我...

回答 1 投票 0

使用 Python 通过更改标题来标准化 Excel 文件?

我想看看是否可以使用Python + Web 界面来获取具有非标准标头的文件,上传它们,并吐出标准化文件。前任。 纤维网 闪电网络 约翰 美国能源部 简 美国能源部 FstNm LstNm

回答 1 投票 0

我无法在glue版本4中使用mongo连接url,但在glue版本3中工作正常

我已经使用 awsglue 从 mongo db 中提取数据大约一年了。我一直在使用glue版本3。我可以使用awsglue版本3执行etl,但是一旦我选择glue版本4,然后...

回答 1 投票 0

从头开始创建数据模型:在 PostgreSQL 中添加外键

作为个人项目,我正在从数据集创建一个小型数据模型。 现在我在两个表之间创建外键时面临问题。 如果公共不存在则创建表。“年” ( ...

回答 1 投票 0

如何构建将多个源的连续数据同步到单个数据接收器的服务

我正在设计一个服务,不断从多个来源提取数据(比如mysql/postgres表、雪花数据库、redshift等),进行一些转换(简单的字段映射)并保存数据...

回答 1 投票 0

源目标验证_转换逻辑

在源表中 客户 ID 性别 1M 2楼 3楼 4M 5楼 目标: 客户 ID 性别 1楼 2M 3M 4楼 5 ...

回答 1 投票 0

SSIS删除管道中多余的列

有人知道是否仍然无法从管道/数据流中删除(而不是隐藏)未使用或冗余的列?好吧,我想可以选择删除列或只是

回答 2 投票 0

将数据从 API 加载到 BigQuery 的首选方式是什么?

我正在尝试将数据从 REST API 获取到 Google Cloud Platform (GCP) 上的 BigQuery 中。实现这一目标的最佳方法是什么(不使用任何第三方工具,例如 Funnel.io 或 Supermetrics)?

回答 2 投票 0

使用 Python ETL (petl) 创建 ETL 管道

我有一个相对直接的 ETL 任务: 读取存储在存储桶 (S3) 中的 CSV 中提供的客户数据。 将数据解析/转换为可用的查询。 最后,将其加载到 postgre...

回答 1 投票 0

无法使用 Glue 将数据从 s3 插入到 DDB

从 s3 读取数据后将数据写入 DDB 时,失败并出现以下错误: 错误类别:UNCCLASSIFIED_ERROR;调用 o112.pyWriteDynamicFrame 时发生错误。提供...

回答 1 投票 0

Python 包构建 SQL 查询

我正在构建一个 ETL,但是,我有一个限制: 我必须使用常规 HTTP 请求与数据库进行通信(将 SQL 查询作为字符串发送)。 我正在寻找可以帮助我的软件包和工具...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.