开源数据堆栈 - Airbyte、Airflow、?,?

问题描述 投票:0回答:1

我正在为大规模批处理管道构建开源数据堆栈。这些数据随后将用于每季度更新一次的机器学习模型中。

我想使用 Airbyte 进行摄取,使用 Airflow 进行一般编排。

总的来说,我想使用现代开源软件,但在选择数据存储和转换时遇到了一些问题。 首先,我想我可能会采用 Cassandra 和 PySpark,但我在几个来源中读到它们并不真正兼容或者需要一些努力。然后我考虑使用 dbt 和 Postgres 之类的东西。但 dbt 似乎只是在分析方面才是一个不错的选择,而不是在机器学习数据方面。例如。 dbt 中的 SQL 并不能很好地完成数据丰富。 Postgres 可能是一个糟糕的选择,因为如果我最终处理大量数据,Postgres 会变慢并且性能下降。

对于我应该使用哪些工具有什么建议吗?

pipeline batch-processing open-source data-engineering airbyte
1个回答
0
投票

我相信有两个问题需要解决,一个并不意味着你不需要另一个。

您可以使用 dbt 从原始数据转换为可供 DS 使用的关系。那时,您可以切换到适合 DS 和 ML 的工具和库。

最后,您需要部署该 ML 模型,并且需要用于 ML Ops 的工具。

我将 dbt 混合在一起的原因是,我认为数据和 SQL 以及其他功能或 dbt(如 DQ、文档和沿袭)还有其他用例,更适合更广泛的受众。

© www.soinside.com 2019 - 2024. All rights reserved.