我熟悉像蜂巢,hbase,hdfs等的hadoop组件。但是我对Apache Kudu还是陌生的。
到目前为止,根据我的研究,我知道kudu只是像镶木地板那样的柱状存储。而且它比Hbase更快。
但是我仍然无法找到任何有效的Kudu安装文档。甚至我都在想我是否真的需要为kudu或在hadoop中内置它(EMR或Dataproc)安装任何单独的软件包。
[请帮助我如何开始使用kudu。
Kudu当前不属于Dataproc,但根据此doc,似乎如果您正在使用Spark,则不需要将软件包安装到集群中,Spark允许您简单地声明依赖项。
将Spark作业提交到Dataproc集群时,可以使用--properties spark:spark.jars.packages=org.apache.kudu:kudu-spark2_2.11:1.10.0
之类的程序将包添加到驱动程序和执行程序,请参阅此doc。
此外,您还可以编写init action将jar下载到/usr/lib/spark/jars
,该罐子将可用于所有Spark作业。
Kudu不是文件格式,而是不同的存储引擎。认为它是HDFS的替代方案。
由于它是一个开源Apache项目,所以在https://kudu.apache.org/docs/installation.html中可以找到安装说明。