etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

将带有元列的 XML 转换为 PDI 中的 csv

我有以下 XML 结构作为输入(列/字段和行数可以根据查询进行更改) 我有以下 XML 结构作为输入(列/字段和行数可以根据查询进行更改) <?xml version="1.0" encoding="UTF-8"?> <response> <results> <metadata> <column name="item" type="S" length="255"/> <column name="client" type="S" length="255"/> </metadata> <data> <row> <field>ACME-ITEM-01</field> <field>ACME</field> </row> </data> </results> </response> 我想使用 Pentaho Data Integration PDI(又名 Kettle)或 Apache HOP 将其转换为 CSV 文件。 做到这一点的最佳方法是什么? 我在 PDI 中解析 XML 文件没有问题,其中每个段都有自己的名称,但在这里我正在用头撞墙。 刚刚发现这正是元数据注入步骤的目的。

回答 1 投票 0

Azure 数据工厂 - 初始加载 SQL Server,然后加载 CDC

我有一个任务,需要使用 ADF 将 2 年的数据从表加载到数据湖,然后继续使用 CDC。 我是 ADF 新手,想知道如何实现这一目标,因为 CDC 已经在桌面上了……

回答 1 投票 0

如何恢复或重置SSIS包密码?

我有一些受密码保护的 SSIS 包(它们的保护级别显然是 EncryptAllWithPassword),由离开公司且无法再联系到的开发人员保护,并试图...

回答 9 投票 0

SSIS 数据转换 由于符号不匹配或数据溢出以外的原因,数据值无法转换

有谁知道为什么在 SSIS 数据转换中将字符串 [DT_STR] 转换为 Unicode 字符串 [DT_WSTR] 时出现以下错误? 错误代码:-1071607681 错误代码 - 描述:数据值可以...

回答 1 投票 0

AWS Glue - 调用 o95.getDynamicFrame 时发生错误。通讯链路故障

我正在尝试使用 AWS Glue Spark 脚本和 JDBC Glue 连接连接到外部 MariaDB 数据库实例。 Spark 脚本的代码片段是: dyf =glueContext.create_dynamic_...

回答 1 投票 0

Excel中的值出现在pandas数据框中的nan

我正在处理这个 csv 文件,其中有一个列,我可以在 csv 查看器中清楚地看到它的内容: 当我在 VSC 中打印行时,我得到以下信息: 但是当我打印数据框时我得到: 我去了

回答 1 投票 0

Snowflake SQL 从 Snowflake.account_usage.copy_history 视图中提取数据作为增量负载

我有一个要求,我试图从snowflake.account_usage.copy_history视图中提取所有雪花的复制历史数据作为增量加载,并使用控制表来存储当前的执行...

回答 1 投票 0

如何在redhat 8中安装infosphere datastage?

我正在寻求有关在 RedHat 8 系统上安装 InfoSphere DataStage 的指导。我对这个过程比较陌生,希望您能提供分步说明或任何有用的资源...

回答 1 投票 0

Azure 数据工厂管道是否可以动态设置数据流源和目标数据库

我有 3 个 Azure SQL 数据库,我想在它们之间同步数据。这 3 个数据库都具有相同的结构,它们是为 3 个环境设置的。 (开发、质量检查、产品)。 我想要一个单一的管道

回答 1 投票 0

如何使用 sqlalchemy 从 pandas 中的 sqlite db 检索数据?

我对Python不是很熟练,我有以下问题。 我正在尝试制作一个 python 脚本,从 yhaoo Finance 下载一些数据,如果没有可用的数据库,请创建它...

回答 1 投票 0

Postgres Logstash 上的自定义offseh 条件

我使用Logstash上的jdbc接口将Postgres的部分数据上传到ElasticSearch。是否可以将 Logstash 配置为使用 WHERE 而不是 OFFSET? 我的配置: 输入 { 文件 { 路径=...

回答 1 投票 0

Postgres Logstash 上的客户关闭条件

我使用Logstash上的jdbc接口将Postgres的部分数据上传到ElasticSearch。是否可以将 Logstash 配置为使用 WHERE 而不是 OFFSET? 我的配置: 输入 { 文件 { 路径=...

回答 1 投票 0

在数据流中使用多个链接服务,Azure 数据工厂

是否可以在 Azure 数据工厂中对源和接收器使用不同的链接服务?基本上数据流中有两个不同的链接服务? 通过使用“复制数据活动”我可以提取...

回答 1 投票 0

Bigquery 上 ETL 的最佳实践方法?

我想知道人们找到了哪些在 bigquery 上构建和管理 ETL 作业的最佳实践/工具。 目前我有很多 sql“模板”(由 l 可怕地参数化...

回答 2 投票 0

如何解决因文件丢失而导致 Talend 作业失败的问题

作业 tbl_IMDbBoxOfficeMojo_Franchises_list_mDB_job_new 由于缺少输入文件而无法执行。具体来说,这项工作是寻找几个与特许经营相关的 TSV 文件(例如,IMDb BoxOffi...

回答 1 投票 0

Pentaho 与 Java 应用程序集成

我在将 Pentaho 与我的 Java 应用程序集成时遇到一些问题。我目前正在使用 Java 11 和 Quarkus 3.X。 我的目标是创建一个 API 来触发 Pentaho 作业运行。我有水壶...

回答 1 投票 0

使用 ScriptTransformRecord 将时间戳值更改为日期

你好,我正在尝试使用 apache nifi 中的 python y ScriptTransformRecord 进程将 json 中的数据从时间戳转换为日期,我该怎么做? { “印象_历史_帖子_看过”...

回答 1 投票 0

带有连接器的 ETL 工具 [1c]:ERP

我正在尝试识别具有开箱即用连接器的 ETL 工具,用于连接到作为 [1c]:ERP 后端数据库的 SQL Server 数据库。这是为了获取数据,使 CDC 等能够将数据提取到

回答 1 投票 0

尝试在 Airflow 上运行 python 脚本

我正在尝试在 Airflow 中运行 DAG,它将在我的环境中执行 Python 脚本。我测试了与文件同一目录下的命令,逻辑似乎是正确的,但在 Airflow 中...

回答 1 投票 0

目录中不存在胶水表

我正在将 json 文件转换为 parquet 格式,但收到错误“Glue Table 不存在”以下是代码: 将 awswrangler 导入为 wr 将 pandas 导入为 pd 导入 urllib.parse 小鬼...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.