因帕拉壳或火花ETL？

我最近开始在Hadoop环境中工作。我需要做一些基本的ETL填充几桌。目前我使用sqoop和使用黑斑羚shell命令编写转换SQL查询将数据导入Hadoop的。

但我听到星火很多这些天。在我的情况下，我会不会有什么好处写我的ETL火花，而不是黑斑羚的壳呢？

由于小号

3
投票

许多人在过去曾使用一个）的SQL脚本（如黑斑羚）与UNIX脚本或使用B）ETL工具ETL。

然而，问题是1）更规模伊莫和2）的技术规范。

由于正在使用的Spark，那么为什么不能在星火规范？

我一直通过这个循环和金博尔DWH处理可以做到与星火相当确定。这意味着在支付ETL工具，如Informatica的条款较少的成本。但也有社区版。

有几点需要注意：

文件保存到不同的HDFS格式更容易，更直接与数据帧作家等。
但随着分支机构的Informatica般的映射略有不同。
性能在规模将与星火一次得到了形式的外部数据源的数据更好。
文件控制是UNIX脚本比内部火花容易海事组织，但它是习惯让Spark内完成的情况。
Sqoop可以免除，你可以使用星火的JDBC DF阅读器，但没有理由与sqoop免除，但我会用汇合卡夫卡与连接，而不是等待时间较长，但随后我们进入禅的问题卡夫卡是多个真实时间方面。
我不服气的ETL工具的优势整体。

随着成本的降低，这下围棋需要，Spark是一个不错的选择。但它不是为胆小的人，你需要一个好的程序员。这是我听到很多人说。

0
投票

我想补充一点黑斑羚是不是一个ETL工具，它是一个SQL查询引擎，可以让你做的非常大的数据集的SQL查询的数据已通过ETL过程清洁之后。

从历史上看猪和蜂房被用于到火花之前ETL。蜂巢仍然是相关的，如果你喜欢SQL语法类似，有许多变种，提供像蜂房上TEZ和蜂箱星火更好的性能与星火取代的MapReduce。

参考