etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

气流传感器不完整文件列表

我真的很想知道,当文件未完全复制/加载到目标数据存储时,气流传感器如何工作。举个例子:我们有一个文件系统,传感器检查其中的文件。我们...

回答 2 投票 0

使用 JOLTTRANSFORMJSON APACHE NIFI 将属性添加到我的 JSON 文件

我正在尝试使用apache nifi来练习转换数据,我一直在尝试使用GetFile来获取我的4个JSON文件,我的目标是转换这4合1,但对我来说很重要的是要记住...

回答 1 投票 0

记录 ETL 作业的方法

我得到的问题可能不太笼统,所以对于 StackOverflow 来说不是最好的 - 对此感到抱歉。然而,我正在谷歌搜索答案,但没有找到任何答案。 在我们的 DWH 项目中(AWS S3 + Redshift +

回答 1 投票 0

Pyspark CI/CD 管道

目前正在学习PySpark进行ETL操作。在这里,我有一个问题如何为 PySpark 脚本制作标准管道。我正在使用 Airflow 在 Kubernetes 中部署 PySpark 脚本,我...

回答 1 投票 0

ora2pg 将一列映射为 2 列

有没有办法将一列映射为两列? 例如,在源中我有一个列firstName,在目的地我有一个列firstName 和lastName。我想将源代码拆分...

回答 1 投票 0

Airflow DAG 运行成功,但任务失败

我正在尝试在 Docker 上运行的 Airflow 上运行一个简单的 DAG。 我有两个 python 脚本,第一个脚本使用 API 调用获取数据,第二个脚本将数据推送到 google 表格中。 ...

回答 1 投票 0

如何在 informatica powercenter 中基于空键查找表

大家好我有2张桌子 表格1 ---------------- 列1 列2 列3 空 1 更新 123 1 年 159 2 楼 表2 ---------------------- 列1 列2 列3 空 1 个 123 1 兹 我想要我的标签...

回答 2 投票 0

如何将数据从 Glue 移动到 Dynamodb

我们正在为我们的一个仪表板应用程序设计一个大数据解决方案,并认真考虑将 Glue 用于我们的初始 ETL。目前 Glue 支持 JDBC 和 S3 作为目标,但我们的下游

回答 5 投票 0

如何将awsglue文件输出写入特定名称

我有一个 awsglue python 作业,它连接两个 Aurora 表并将输出以 json 格式写入/接收到 s3 存储桶。工作进展顺利,符合预期。默认情况下,输出文件写入 s3 buc...

回答 2 投票 0

如何使 Apache Airflow 中的 DAG 像简单的 cron 作业一样运行?

Airflow 调度程序在过去的几天里让我有点摸不着头脑,因为即使在 catchup=False 后它也会回填 dag 运行。 我的时区感知 dag 的开始日期为 13-04-2021 19:30 PST 或 14-04-2...

回答 2 投票 0

尝试连接到 Matillion 中的 RDS 查询时出错

我已在 AWS RDS 中创建了一个 postgres 数据库,并能够使用 Dbeaver 连接到它。但是,当尝试使用 RDS 查询在 Matillion 中连接它时,它会出现此错误。 致命:没有 pg_hba.conf 条目...

回答 1 投票 0

从多个来源构建维度模型

我有一个从多个来源(在线和零售)构建的维度模型。我有以下维度 - 日期、团队成员、部门、商店。和fct - 销售。 功能表 日期_id 团队成员_id 部门ID

回答 1 投票 0

Dynamodb 到 starrocks etl

我需要将一组表从 DynamoDB 提取到 StarRocks。有人使用 StarRocks Load 工具来完成此任务吗?如果是这样,你能分享一下如何做吗? 第二个相关问题:有些表格非常

回答 1 投票 0

我在尝试运行作业时遇到启动错误

因此,我尝试在 AWS 上运行作业,但每次运行都会失败,并收到以下错误: 我不确定该去哪里查看或问题出在哪里。我是新人,仍在学习,请指导

回答 1 投票 0

Ssis sql执行任务存储在变量中

我正在尝试使用 ssis 将最新日期存储在变量中。我在sql查询中有这个 从 \[Sheet1$\] 选择 max(\[update_date\]) 作为最新日期 结果集是单行,我的变量名称是 user::n...

回答 1 投票 0

Ssis 查找列中具有最大值的行

我需要帮助在 ssis 中查找具有最新日期的行。我有 Excel 文件,我需要在“update_date”列中找到具有最新日期的行,然后将该行导入数据库中。怎么才能找到

回答 1 投票 0

Kiba ETL 和法拉第请求

我正在做一个有CDC概念的项目。它从数据库中读取更改并将事件推送到rabbitmq队列(它使用debezium)。 之后我使用 KibaETL 处理事件消息

回答 1 投票 0

SSIS包运行但未部署会影响服务器吗?

我是 SSIS 新人。我调整了一个SSIS包。跑了。都是绿色的。然后我想我部署到服务器数据库了。那天,当我查询数据库时,它显示了新结果而不是旧结果

回答 1 投票 0

在股市数据中添加缺失的日期行以保持 pandas 数据框架的连续性

所以我有大约13年的每日低点高点收盘的股市数据。问题是市场有时会在中间休市,因此周一到周五可能不会连续出现......

回答 2 投票 0

在“设置值”步骤中将参数从 SQL Server 代理作业传递到 SSIS 包

我有一个 SSIS 包,它将在另一个数据库中运行,并且有一些参数取决于将要运行的环境(数据库名称、Excel 文件的文件路径、服务器...

回答 2 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.