etl 相关问题

ETL是Extract,Transform和Load的首字母缩写。它指的是从源系统提取数据,以某种方式转换数据(操纵它,过滤它,将其与其他源组合),最后将转换后的数据加载到目标系统的过程。

在列表上使用BeautifulSoup而不丢失url属性(python)

我已经成功地抓取了所有 li 的页面并创建了一个数据框。我遇到困难的部分是提取并保留每行中的“url_for_rowN”部分。我想要...

回答 1 投票 0

是否可以通过元数据中的时间过滤掉 Stripe API 订阅?

我需要制作一个 ETL,每天从 Stripe API 下载过去一天内创建或更改的订阅并合并到表中。 我在元数据中有一个“已更新”字段...

回答 1 投票 0

读取时反斜杠会自动从 json 中删除,并且需要保留反斜杠 - Azure 数据工厂

复制活动处理文件后,json 中的反斜杠将被删除 我有 json 输入文件,其中包含以下对象 输入 { “名称”:“xyz”, &qu...

回答 1 投票 0

使用 pentaho 转换数据

我有一个表T,包含五列,a,b,c,d,e,我想根据d和e值更改a和b值, 假设 if( d = 3 and e = 4) a=2 and b=3,我如何在 Pentaho 中实现它......

回答 1 投票 0

Datastage Sortstage 集群键更改与键更改

根据IBM关于Sort Stage的文档: 创建集群键更改列 此属性针对排序类型 DataStage 显示并且是可选的。默认设置为 False。如果设置为 True,它会告诉...

回答 1 投票 0

ETL 项目 Visual Studio 2017 的错误

尝试创建一个集成服务项目,在其中使用“OLE DB 源”对象,在该对象中执行提取 120,000 行和 120 列的 SQL 查询。我想转储该数据...

回答 1 投票 0

ETL Proyect Visual Studio 2017 的错误

尝试创建一个集成服务项目,在其中使用“OLE DB 源”对象,在该对象中执行提取 120,000 行和 120 列的 SQL 查询。我想转储该数据...

回答 1 投票 0

Luigi/SQLite:如何在初始加载后更新数据库?

我使用以下代码通过 Luigi 将数据加载到 SQLite 数据库中: 类LoadData(luigi.Task): def 要求(自我): 返回变换数据() def 运行(自我): ...

回答 3 投票 0

如何提高pentaho变换输入/输出速度

我正在使用 Pentaho 数据集成 (PDI)-spoon 来创建 ETL,并且我非常关注性能。 我开发了一个 ETL 来处理 MySQL 8 中的 2,500,000 行副本(每行有 104 列)...

回答 2 投票 0

Polars - 将行展平为列,按列值聚合

我正在尝试在 Polars 中编写一个脚本,该脚本可以压平每个日期和分钟的价格列表。问题是我想逐步聚合到列中并将值归零。对于前...

回答 1 投票 0

Datastage 中从字符串到时间戳的隐式转换错误

我在 IBM Infosphere datastage 并行作业中遇到时间戳转换错误。输入是顺序文件,列保存 varchar 数据类型。以下是按顺序查看数据时的值...

回答 1 投票 0

批量编辑 DataStage 作业?

我们正在将大量 (>1000) DataStage 作业从一个数据库重新指向另一个数据库。作为其中的一部分,我们需要对许多作业的单个阶段进行相同的更改。 到目前为止,我们已经...

回答 2 投票 0

使用 Pentaho Kettle 通过 SFTP 获取文件

我在 SFTP 上有文件,名称格式为: 145388__交易搜索_Bede7d_20230823080418000000_101e736810b34134.csv 145388__交易搜索_Bede7d_20230822080346000000_41314bd7d21cda0e.cs...

回答 1 投票 0

AWS Glue:如何写入 S3 跨账户

我的帐户(帐户本地)中有一个 Glue 作业,我需要将 ETL 输出写入另一个帐户(帐户远程)。该作业使用本地账户中的 IAM 角色运行:Glue-job-role 有一个IA...

回答 1 投票 0

如何实施SCD来更新和维护员工的工资和部门

我想捕获员工部门的变化并使用 scd 的 plsql 实现来更新工资。请提出解决方案 仅尝试了 scd1 但希望保留部门的历史记录 那里有...

回答 1 投票 0

pandas 上 Delta Lake 内存消耗不合理

我正在使用 Delta Lake 开发 Databricks。 我有一个大小约为 1.9GB 的数据集(镶木地板格式)。我正在尝试将此数据集转换为增量表,并且我能够成功创建

回答 1 投票 0

将两个不同的 Oracle 数据库服务器中的数据复制并更新到第三个 Oracle 数据库中

我有两个不同的数据库服务器托管Oracle数据库。现在我需要从这两个数据库中获取一些特定的表和视图到第三个 Oracle 数据库中。 是否有可能一些内置的 u...

回答 1 投票 0

找不到 docker compose v2

“未找到 docker compose v2!请安装 docker compose!”尽管我安装了 Docker Compose 版本 2.18.1,但我尝试运行 Airbyte 时出现此消息,我可以在 Termi 中检查它...

回答 1 投票 0

通过SSMS编辑dtsx

我创建并执行了一个带有SSMS相应向导的dtsx: 这是为了在现有表中导入平面文件。 最后我将“包”保存为 .dtsx 文件 现在我需要修改该列

回答 4 投票 0

直接在windows中查看docker pyspark输出文件

注意:我使用的是Windows 11 我构建了一个 docker 映像,该映像执行 pyspark 应用程序来读取 CSV 文件并以 parquet 格式写入它们。下面是我的 Dockerfile 来自 gcr.io/datamechanics/spark:

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.