我最近开始在Hadoop环境中工作。我需要做一些基本的ETL填充几桌。目前我使用sqoop和使用黑斑羚shell命令编写转换SQL查询将数据导入Hadoop的。
但我听到星火很多这些天。在我的情况下,我会不会有什么好处写我的ETL火花,而不是黑斑羚的壳呢?
由于小号
许多人在过去曾使用一个)的SQL脚本(如黑斑羚)与UNIX脚本或使用B)ETL工具ETL。
然而,问题是1)更规模伊莫和2)的技术规范。
由于正在使用的Spark,那么为什么不能在星火规范?
我一直通过这个循环和金博尔DWH处理可以做到与星火相当确定。这意味着在支付ETL工具,如Informatica的条款较少的成本。但也有社区版。
有几点需要注意:
随着成本的降低,这下围棋需要,Spark是一个不错的选择。但它不是为胆小的人,你需要一个好的程序员。这是我听到很多人说。
我想补充一点黑斑羚是不是一个ETL工具,它是一个SQL查询引擎,可以让你做的非常大的数据集的SQL查询的数据已通过ETL过程清洁之后。
从历史上看猪和蜂房被用于到火花之前ETL。蜂巢仍然是相关的,如果你喜欢SQL语法类似,有许多变种,提供像蜂房上TEZ和蜂箱星火更好的性能与星火取代的MapReduce。
参考