etl 相关问题

ETL是Extract，Transform和Load的首字母缩写。它指的是从源系统提取数据，以某种方式转换数据（操纵它，过滤它，将其与其他源组合），最后将转换后的数据加载到目标系统的过程。

在列表上使用BeautifulSoup而不丢失url属性（python）

我已经成功地抓取了所有 li 的页面并创建了一个数据框。我遇到困难的部分是提取并保留每行中的“url_for_rowN”部分。我想要...

python html pandas beautifulsoup etl

回答 1 投票 0

是否可以通过元数据中的时间过滤掉 Stripe API 订阅？

我需要制作一个 ETL，每天从 Stripe API 下载过去一天内创建或更改的订阅并合并到表中。我在元数据中有一个“已更新”字段...

stripe-payments etl

回答 1 投票 0

读取时反斜杠会自动从 json 中删除，并且需要保留反斜杠 - Azure 数据工厂

复制活动处理文件后，json 中的反斜杠将被删除我有 json 输入文件，其中包含以下对象输入 { “名称”：“xyz”， &qu...

json azure azure-data-factory etl transformation

回答 1 投票 0

使用 pentaho 转换数据

我有一个表T，包含五列，a，b，c，d，e，我想根据d和e值更改a和b值，假设 if( d = 3 and e = 4) a=2 and b=3，我如何在 Pentaho 中实现它......

etl pentaho pentaho-data-integration

回答 1 投票 0

Datastage Sortstage 集群键更改与键更改

根据IBM关于Sort Stage的文档：创建集群键更改列此属性针对排序类型 DataStage 显示并且是可选的。默认设置为 False。如果设置为 True，它会告诉...

sorting etl datastage

回答 1 投票 0

ETL 项目 Visual Studio 2017 的错误

尝试创建一个集成服务项目，在其中使用“OLE DB 源”对象，在该对象中执行提取 120,000 行和 120 列的 SQL 查询。我想转储该数据...

sql-server ssis visual-studio-2017 excel-2010 etl

回答 1 投票 0

ETL Proyect Visual Studio 2017 的错误

尝试创建一个集成服务项目，在其中使用“OLE DB 源”对象，在该对象中执行提取 120,000 行和 120 列的 SQL 查询。我想转储该数据...

sql-server ssis visual-studio-2017 excel-2010 etl

回答 1 投票 0

Luigi/SQLite：如何在初始加载后更新数据库？

我使用以下代码通过 Luigi 将数据加载到 SQLite 数据库中：类LoadData(luigi.Task): def 要求（自我）：返回变换数据() def 运行（自我）： ...

python sqlite etl luigi

回答 3 投票 0

如何提高pentaho变换输入/输出速度

我正在使用 Pentaho 数据集成 (PDI)-spoon 来创建 ETL，并且我非常关注性能。我开发了一个 ETL 来处理 MySQL 8 中的 2,500,000 行副本（每行有 104 列）...

etl pentaho kettle pentaho-spoon pdi

回答 2 投票 0

Polars - 将行展平为列，按列值聚合

我正在尝试在 Polars 中编写一个脚本，该脚本可以压平每个日期和分钟的价格列表。问题是我想逐步聚合到列中并将值归零。对于前...

dataframe etl python-polars rust-polars

回答 1 投票 0

Datastage 中从字符串到时间戳的隐式转换错误

我在 IBM Infosphere datastage 并行作业中遇到时间戳转换错误。输入是顺序文件，列保存 varchar 数据类型。以下是按顺序查看数据时的值...

type-conversion etl datastage ibm-infosphere

回答 1 投票 0

批量编辑 DataStage 作业？

我们正在将大量 (>1000) DataStage 作业从一个数据库重新指向另一个数据库。作为其中的一部分，我们需要对许多作业的单个阶段进行相同的更改。到目前为止，我们已经...

api etl database-migration datastage ibm-infosphere

回答 2 投票 0

使用 Pentaho Kettle 通过 SFTP 获取文件

我在 SFTP 上有文件，名称格式为： 145388__交易搜索_Bede7d_20230823080418000000_101e736810b34134.csv 145388__交易搜索_Bede7d_20230822080346000000_41314bd7d21cda0e.cs...

javascript etl pentaho kettle pentaho-data-integration

回答 1 投票 0

AWS Glue：如何写入 S3 跨账户

我的帐户（帐户本地）中有一个 Glue 作业，我需要将 ETL 输出写入另一个帐户（帐户远程）。该作业使用本地账户中的 IAM 角色运行：Glue-job-role 有一个IA...

apache-spark amazon-s3 etl aws-glue identity-management

回答 1 投票 0

如何实施SCD来更新和维护员工的工资和部门

我想捕获员工部门的变化并使用 scd 的 plsql 实现来更新工资。请提出解决方案仅尝试了 scd1 但希望保留部门的历史记录那里有...

oracle etl data-warehouse scd

回答 1 投票 0

pandas 上 Delta Lake 内存消耗不合理

我正在使用 Delta Lake 开发 Databricks。我有一个大小约为 1.9GB 的数据集（镶木地板格式）。我正在尝试将此数据集转换为增量表，并且我能够成功创建

pandas apache-spark databricks etl delta-lake

回答 1 投票 0

将两个不同的 Oracle 数据库服务器中的数据复制并更新到第三个 Oracle 数据库中

我有两个不同的数据库服务器托管Oracle数据库。现在我需要从这两个数据库中获取一些特定的表和视图到第三个 Oracle 数据库中。是否有可能一些内置的 u...

database oracle10g etl

回答 1 投票 0

找不到 docker compose v2

“未找到 docker compose v2！请安装 docker compose！”尽管我安装了 Docker Compose 版本 2.18.1，但我尝试运行 Airbyte 时出现此消息，我可以在 Termi 中检查它...

docker docker-compose etl airbyte

回答 1 投票 0

通过SSMS编辑dtsx

我创建并执行了一个带有SSMS相应向导的dtsx：这是为了在现有表中导入平面文件。最后我将“包”保存为 .dtsx 文件现在我需要修改该列

sql-server ssis ssms etl sql-server-2016

回答 4 投票 0

直接在windows中查看docker pyspark输出文件

注意：我使用的是Windows 11 我构建了一个 docker 映像，该映像执行 pyspark 应用程序来读取 CSV 文件并以 parquet 格式写入它们。下面是我的 Dockerfile 来自 gcr.io/datamechanics/spark：

docker pyspark dockerfile etl

回答 1 投票 0

etl 相关问题

最新问题