etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

AWS Glue。无法检查数据目录中的模式。表中没有行

我正在按照一个示例运行AWS Glue Job,来自:https:/docs.aws.amazon.comgluelatestdgaws-glue-programming-python-samples-legislators.html然而,我目前正面临一个问题,即 ...

回答 1 投票 1

将文件从 SFTP 复制到 Azure Data Lake Gen2。

所以我的问题是相当愚蠢的,但我找不到解决的方法。我在外部SFTP服务器上有一个15GB的文件,我需要复制到我的数据湖中。事情是,列的分隔符是一个逗号......

回答 1 投票 0

关于apache nifi:互联网上的端点之间有流文件管道吗?

这个请求是将流文件以FIFO队列的方式传输到远程nifi服务器。我试过以下方法。通过http InvokeHttp -> ListenHttp. 我发现有几个请求已经被放弃了,而且我...

回答 1 投票 0

以Kafka和MongoDB为源头的ETL业务。

我只是在学习Apache Kafka。我目前的ETL是在批处理上运行的,现在我想让它在流处理上运行,这样用于报告的数据总是最新的。据我...

回答 1 投票 0

使用ETL-(Matillion或Python)进行过滤的逻辑

[数据集:在此处输入图片描述]电子邮件品牌开始日期response_no需要逻辑来选择/过滤响应abc wi 4/1/2019 1(选择)abc wi ...

回答 1 投票 0

AWS Glue Python Shell作业连接超时错误

[尝试运行AWS Glue Python Shell作业,但给我连接超时错误错误图像:https://i.stack.imgur.com/MHpHg.png脚本:https://i.stack.imgur.com/KQxkj。 png

回答 1 投票 0

持续时间之间的天蓝色数据工厂差异

我是Azure Data Factory的新手。以前,我一直在与SSIS和Pentaho合作。最近,我开始使用此工具来创建一些ETL,并且我注意到...

回答 1 投票 0

在Apache NiFi中读取UCS-2 LE BOM编码文件时出现问题

[在Apache NiFi中,我尝试读取编码为UCS-2 LE BOM的文本文件,然后尝试将其转换为JSON。但是Apache NiFi将其视为一行。我尝试转换为UTF -...

回答 1 投票 2

用分隔符前的转义符创建Athena表

我正在根据s3中的数据在雅典娜中创建表。这是查询的简短形式。创建外部表`tablename`(`licensee_pub` string COMMENT'from deserializer',`admin_number` ...

回答 1 投票 0

到/自E3体系结构的S3管道建议的雪花

我正在尝试建立一个管道,该管道将数据从Snowflake发送到S3,然后再从S3发送回Snowflake(在Sagemaker上通过生产ML模型运行数据之后)。我是Data的新手...

回答 1 投票 0

将查询用作SSIS中的条件拆分表达式

如何在条件拆分中使用以下查询,nxdt是日期列;它的值如11/30/0002 00:00:00.000000。因此,在下面的查询中使用了该过滤器,因此需要在我的程序包中使用... ...>

回答 1 投票 3

如何以JSON格式转换debezium消息,以便可以将其加载到Redshift中

我需要帮助来完成几件事。我创建了一个数据管道,如下所述。 Mysql-> debezium-> Kafka-> Kafka Connect ---> AWS S3。现在,S3将具有JSON格式的debezium事件消息。 ...

回答 1 投票 0

无法从熊猫系列中删除小数

我正在尝试从熊猫系列中删除小数。目前它是一只熊猫花车。我将其转换为字符串。然后我想删除小数点,以便可以使用此列合并其他数据...

回答 2 投票 0

[VIEW的Kafka KSQL等价物,用于需要数据子集的使用者

我们正在Kafka中实现ETL,以将数据从单一来源加载到具有不同使用者的不同目标系统中。每个使用者都需要数据的一个子集,为此,我们有以下内容...

回答 1 投票 1

在Azure上运行Python脚本并保存到SQL数据库

[我们刚刚与Azure签约,想知道如何计划和运行Python脚本,这些脚本从各种来源(例如API,Web抓取脚本等)提取数据。Azure上最好的工具是什么...

回答 1 投票 0

哪个ETL最适合Hbase

我正在使用Talend开放工具从HBase提取数据。还有没有其他最好的(精确地:提取更多记录)开源工具,可以从HBase提取数据并将其加载到另一个数据库中。

回答 1 投票 -1

在Azure上登台或登陆

我正在Azure数据工厂中执行ETL,我只是想确认我对它的了解,然后再继续。请在下面找到图片。我正在从多个来源收集数据,并且...

回答 1 投票 0

如何提取postgres数据类型以生成创建表语句

我正在尝试将数据从Postgres移至sqlserver。我想使用元数据从sqlserver中的postgres重新创建表。 information_schema具有列数据类型,但我需要...

回答 1 投票 0

需要上下文限制的建筑气流DAG

我有一组要作为DAG Group1运行的作业单元(工人),它有10个工人,每个工人从数据库中提取多个表。请注意,每个工作程序都映射到单个数据库实例,并且...

回答 1 投票 5

导入excel时,前导空单元格将删除逗号

我有一个简单的带有一些数据的excel文件。一些特定的列可以为NULL,0或具有numeric(10,5)的长度,例如以下格式:12345.12345。 ...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.