etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

我似乎无法从网页表格生成数据框

不确定问题出在哪里,但代码没有给出从网页检索的数据帧。我尝试分别运行代码,但没有生成数据帧。 这是我的第一个提取项目,我

回答 1 投票 0

错误:Carga Tabla Hecho 处的 0xC0209029,OLE DB 目标 [2]:SSIS 错误代码 DTS_E_INDUCEDTRANSFORMFAILUREONERROR。 “OLE DB 目标。In

我对之前的问题表示歉意;我希望现在好多了。这是我在 ETL 项目中面临的问题:在表中,当使用 isnull 并将其设置为 0 时,它给了我这个问题。看来...

回答 1 投票 0

从 ADF 迁移到 SSIS

我一直在使用 Azure 数据工厂作为 ETL 工具,但由于业务决策,我想降级/迁移到本地 SSIS。除了重写

回答 1 投票 0

在 s3 存储桶之间传输 10TB 并查询[已关闭]

我拥有大量数据,即规模>10TB,由结构化和非结构化格式组成。 要求是: 将数据从一个 s3 存储桶传输到另一个 查询 s3 Buck 中的数据...

回答 1 投票 0

在 s3 存储桶之间传输

我拥有大量数据,即规模>10TB,由结构化和非结构化格式组成。 要求是: 1.将数据从一个s3存储桶传输到另一个s3存储桶 2.查询s3中的数据...

回答 1 投票 0

如何在 scala Spark 中将列中的数组提取到数组

根 |-- CC: 数组 (可为空 = false) | |-- 元素:字符串(containsNull = true) +----------------------------------------+ |抄送 | +----------------------------------------+ |[值1,值...

回答 1 投票 0

Apache Nifi:从 REST 加载数据到 Druid

我正在使用 Apache NiFi。 从 REST API 向 Druid 加载数据的正确方法是什么?

回答 3 投票 0

如何在管道 ETL - DataFrame -DataFlow - BigQuery 中执行两项任务

这是我在 Google Cloud 中用 BigQuery 编写的代码: 导入 apache_beam 作为光束 从 apache_beam.io.gcp.gcsio 导入 GcsIO 从 apache_beam.options.pipeline_options 导入 PipelineOptions 来自

回答 1 投票 0

SSIS 根据另一列替换列值

我有一个表,其中包含其他字段,其中包含以下内容。 我有一个 SSIS 包上的 ETL,它从该表中读取这两个字段和许多其他字段。在写期末考试之前我该怎么做呢?

回答 1 投票 0

SSIS 包停止工作,错误代码:0x80004005

去年 12 月我得到了这个 SSIS 包。它只在周五早上运行。上周五它失败并出现以下错误消息: 包:错误:SSIS 错误代码 DTS_E_OLEDBERROR。一个 OLE DB 呃...

回答 2 投票 0

apache airflow 可以处理大约 50TB 数据的 ETL 过程吗? [已关闭]

我的数据库中有大约 50TB 的数据,需要从源数据库中提取这些数据并将其加载到下游系统中。此数据源是本地 RDBMS。我想使用 Ap...

回答 1 投票 0

apache airflow 可以处理 TB 级数据(约 50 TB)的 ETL 过程吗?

我的数据库中有大约 50TB 的数据需要经过 ETL 过程。这些数据位于本地数据库系统中。为此,我计划使用 Apache Airflow 进行提取,

回答 1 投票 0

如何使用 tFileInputExcel 进行错误处理

我们每天收到数十个 Excel 文件,并希望使用 Talend 处理它们。 这些文件中的信息并不总是满足要求。 我们收到 PDF、Word、XML 文件。但我们也收到了

回答 1 投票 0

将数据从一列转置/透视到雪花表中每行的多列

我有一个包含客户数据的表,以及每行值数、列前缀和填充值的变量。 我正在尝试编写一个动态 SQL 查询来转置客户数据...

回答 1 投票 0

每当文件移动到特定文件夹时,如何使用 talend 自动执行上传过程

我对 ETL 的经验为零。 每当文件(.csv)移动到特定文件夹时,都应该将其上传到 SalesForce 我不知道如何获得此自动化流程。 我希望我说得足够清楚。 我

回答 2 投票 0

当用Python处理一个巨大的CSV时,它突然停止了,“killed”是什么意思?

我有一个Python脚本,它导入一个大的CSV文件,然后计算文件中每个单词的出现次数,然后将计数导出到另一个CSV文件。 但正在发生的事情是......

回答 6 投票 0

尝试读取 Char(50) 数据类型列的前 9 个位置

我正在尝试比较两列,其中一列为 Column1=Char(9),另一列为 Column2=Char(50)。需要做Column1 = Column2,但我只需要读取column2的第1个9个位置来完成相等的乐趣...

回答 1 投票 0

如何验证(Excel - MS AzureSQL)ETL 中的日期? - 微软Azure数据工厂

我正在针对 MS Azure 数据工厂的预算使用简单的 ETL。该管道从 Excel 获取源,并在 MS Azure SQL 数据库上有一个接收器。 已经完成集成并且可以工作了,b...

回答 1 投票 0

无法在 Pentaho Data Integration 9.2 中运行作业(kjb)

我尝试使用pentaho 9.2运行作业,但在按厨房评论运行时没有选择作业 ./kitchen.sh -rep=repo1 -file=/var/lib/jenkins/project/path/etl/Job1.kjb Job1.kjb 包含多个...

回答 2 投票 0

GCSToBigQueryOperator 在 python 运算符中不起作用

当我使用 GCSToBigQueryOperator 时,它可以工作,但是放入函数内部并从 python 运算符调用会出现以下错误; 文件“/home/airflow/.local/lib/python3.7/site-packages/airflow/prov...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.