我们有一个HDP 2.6.4火花群集,有10个linux工作机器。
群集通过HDFS运行spark应用程序。 HDFS安装在所有工作人员上。
我们希望安装将查询群集的HDFS的presto,但是由于工作计算机中缺少CPU资源(每台计算机只有32个核心),计划是在群集外部安装presto。
为此,我们有几个ESX,每个ESX将有2个VM,每个VM将运行一个presto服务器。
所有ESX计算机都将通过10g网卡连接到spark群集,这样两个群集将位于同一网络中。
我的问题是 - 我们是否可以在VM群集上安装presto,虽然HDFS不在ESX群集上(而是在火花群集上)?
编辑:
从答案我们得到它似乎在VM上安装presto是标准的,所以我想澄清我的问题:
Presto在presto / etc下有一个名为hive.properties的配置文件。
在该文件中有一个名为hive.config.resources的参数,其值如下:
/etc/Hadoop/conf/presto-HDFS-site.XML,/etc/Hadoop/conf/presto-core-site.XML
这些文件是HDFS配置文件,但由于VM群集和spark群集(包含HDFS)是独立的(VM群集上的presto应该访问驻留在spark群集上的HDFS),问题是 -
是否应将这些文件从spark群集复制到VM群集?
只要将Presto VM配置为边缘节点(也称为网关节点)并拥有所有必需的配置文件和工具,您就不会有任何问题。有关边节点的详细信息,请参阅