因帕拉壳或火花ETL?

问题描述 投票:2回答:2

我最近开始在Hadoop环境中工作。我需要做一些基本的ETL填充几桌。目前我使用sqoop和使用黑斑羚shell命令编写转换SQL查询将数据导入Hadoop的。

但我听到星火很多这些天。在我的情况下,我会不会有什么好处写我的ETL火花,而不是黑斑羚的壳呢?

由于小号

apache-spark hadoop etl impala
2个回答
3
投票

许多人在过去曾使用一个)的SQL脚本(如黑斑羚)与UNIX脚本或使用B)ETL工具ETL。

然而,问题是1)更规模伊莫和2)的技术规范。

由于正在使用的Spark,那么为什么不能在星火规范?

我一直通过这个循环和金博尔DWH处理可以做到与星火相当确定。这意味着在支付ETL工具,如Informatica的条款较少的成本。但也有社区版。

有几点需要注意:

  • 文件保存到不同的HDFS格式更容易,更直接与数据帧作家等。
  • 但随着分支机构的Informatica般的映射略有不同。
  • 性能在规模将与星火一次得到了形式的外部数据源的数据更好。
  • 文件控制是UNIX脚本比内部火花容易海事组织,但它是习惯让Spark内完成的情况。
  • Sqoop可以免除,你可以使用星火的JDBC DF阅读器,但没有理由与sqoop免除,但我会用汇合卡夫卡与连接,而不是等待时间较长,但随后我们进入禅的问题卡夫卡是多个真实时间方面。
  • 我不服气的ETL工具的优势整体。

随着成本的降低,这下围棋需要,Spark是一个不错的选择。但它不是为胆小的人,你需要一个好的程序员。这是我听到很多人说。


0
投票

我想补充一点黑斑羚是不是一个ETL工具,它是一个SQL查询引擎,可以让你做的非常大的数据集的SQL查询的数据已通过ETL过程清洁之后。

从历史上看猪和蜂房被用于到火花之前ETL。蜂巢仍然是相关的,如果你喜欢SQL语法类似,有许多变种,提供像蜂房上TEZ和蜂箱星火更好的性能与星火取代的MapReduce。

参考

© www.soinside.com 2019 - 2024. All rights reserved.