etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

Azure数据工厂。处理活动中的内部故障

我有一个 Azure 数据工厂 v2 管道,其中包含一个 until 活动。在 until 内有一个复制活动 - 如果该活动失败,就会记录错误,就像这个帖子中的一样,我希望循环......

回答 1 投票 0

AWS Glue Python ETL: logger消息出现在错误的cloudwatch流中。

我正在写一个Glue ETL,我试图用Python默认的日志记录器来记录。问题是,我使用日志器打印的所有日志信息都出现在作业的错误流中。如果我打印...

回答 1 投票 0

多表中最高修改日期

我们在ETL过程中经常遇到一个问题,希望这里有人曾经解决过。假设我们有三个分层表:头表、明细表和事务表。源系统可以 ...

回答 1 投票 1

SSIS在'float'(DT_R8)数据类型上出现截断错误。

我有一个SSIS包(VS2019),将数据从Access数据源(ODBC)迁移到MSSQL(2012,ADO.NET)目标。有很多表,包含很多浮动字段,都在运行,没有问题; ...

回答 1 投票 1

AWS Glue ETL Job和AWS EMR的区别是什么?

如果我要对一个存储在S3中的巨大数据集(比如1Tb)以csv文件的形式执行ETL,AWS Glue ETL作业和AWS EMR步骤都可以使用,那么AWS Glue和AWS EMR有什么不同呢?那么AWS Glue和AWS EMR有什么不同。哪个是更好的...

回答 2 投票 0

从Oracle11G中加载大表+数据到SQL Server 2012中的最有效方法(我有一个链接服务器的设置)。

我有两个数据库,一个是SQL Server 2012,另一个是Oracle 11G数据库。我需要从Oracle中复制一个有1亿条记录的大表到SQL Server数据库中。我需要从Oracle数据库中复制一张有1亿条记录的大表到SQL Server数据库中,请问有什么 ...

回答 1 投票 0

将Hive外部表的列名改为大写,并增加新的列。

我有一个外部表,例如dump_table,它是按年、月、日分区的。如果我运行show create table dump_table,我得到以下结果。CREATE EXTERNAL TABLE `dump_table` ( `... )

回答 1 投票 0

如何用SQLLDR加载毫秒级精度的日期?

我试图使用sqlldr加载有6位小数的日期字段。例如,我的csv导入文件中有一个日期:"2020-01-05-16.32.02.070000"。在我的sqlldr控制文件中,我尝试了:......。

回答 1 投票 0

在postgresql中生成创建表语句。

我试图将数据从postgres移动到sqlserver。我想在sqlserver中使用元数据重新创建postgres中的表,information_schema有列数据类型,但我需要 ...

回答 1 投票 0

在oracle数据集成器中的 "使用凭证文件 "在数据服务器中是用来做什么的?

我想探索Oracle数据集成器,我不能够理解什么是 "使用凭证文件 "选项在数据服务器在Oracle数据集成器做。如果有人能解释这将是有帮助的......

回答 1 投票 0

从不同模式的select语句插入到Hive表中

我有一个目标外部表,其列数如下。UPDATED_BY STRING, Name STRING 我想从源表中插入数据到目标表中,其列数如下: UPDATED_BY STRING, abc ..: UPDATED_BY STRING, abc ...

回答 1 投票 0

AWS Glue。无法检查数据目录中的模式。表中没有行

我正在按照一个示例运行AWS Glue Job,来自:https:/docs.aws.amazon.comgluelatestdgaws-glue-programming-python-samples-legislators.html然而,我目前正面临一个问题,即 ...

回答 1 投票 1

将文件从 SFTP 复制到 Azure Data Lake Gen2。

所以我的问题是相当愚蠢的,但我找不到解决的方法。我在外部SFTP服务器上有一个15GB的文件,我需要复制到我的数据湖中。事情是,列的分隔符是一个逗号......

回答 1 投票 0

关于apache nifi:互联网上的端点之间有流文件管道吗?

这个请求是将流文件以FIFO队列的方式传输到远程nifi服务器。我试过以下方法。通过http InvokeHttp -> ListenHttp. 我发现有几个请求已经被放弃了,而且我...

回答 1 投票 0

以Kafka和MongoDB为源头的ETL业务。

我只是在学习Apache Kafka。我目前的ETL是在批处理上运行的,现在我想让它在流处理上运行,这样用于报告的数据总是最新的。据我...

回答 1 投票 0

使用ETL-(Matillion或Python)进行过滤的逻辑

[数据集:在此处输入图片描述]电子邮件品牌开始日期response_no需要逻辑来选择/过滤响应abc wi 4/1/2019 1(选择)abc wi ...

回答 1 投票 0

AWS Glue Python Shell作业连接超时错误

[尝试运行AWS Glue Python Shell作业,但给我连接超时错误错误图像:https://i.stack.imgur.com/MHpHg.png脚本:https://i.stack.imgur.com/KQxkj。 png

回答 1 投票 0

持续时间之间的天蓝色数据工厂差异

我是Azure Data Factory的新手。以前,我一直在与SSIS和Pentaho合作。最近,我开始使用此工具来创建一些ETL,并且我注意到...

回答 1 投票 0

在Apache NiFi中读取UCS-2 LE BOM编码文件时出现问题

[在Apache NiFi中,我尝试读取编码为UCS-2 LE BOM的文本文件,然后尝试将其转换为JSON。但是Apache NiFi将其视为一行。我尝试转换为UTF -...

回答 1 投票 2

用分隔符前的转义符创建Athena表

我正在根据s3中的数据在雅典娜中创建表。这是查询的简短形式。创建外部表`tablename`(`licensee_pub` string COMMENT'from deserializer',`admin_number` ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.