在VM群集上安装Presto并将其连接到不同Yarn群集上的HDFS

问题描述 投票:3回答:1

我们有一个HDP 2.6.4火花群集,有10个linux工作机器。

群集通过HDFS运行spark应用程序。 HDFS安装在所有工作人员上。

我们希望安装将查询群集的HDFS的presto,但是由于工作计算机中缺少CPU资源(每台计算机只有32个核心),计划是在群集外部安装presto。

为此,我们有几个ESX,每个ESX将有2个VM,每个VM将运行一个presto服务器。

所有ESX计算机都将通过10g网卡连接到spark群集,这样两个群集将位于同一网络中。

我的问题是 - 我们是否可以在VM群集上安装presto,虽然HDFS不在ESX群集上(而是在火花群集上)?

编辑:

从答案我们得到它似乎在VM上安装presto是标准的,所以我想澄清我的问题:

Presto在presto / etc下有一个名为hive.properties的配置文件。

在该文件中有一个名为hive.config.resources的参数,其值如下:

/etc/Hadoop/conf/presto-HDFS-site.XML,/etc/Hadoop/conf/presto-core-site.XML

这些文件是HDFS配置文件,但由于VM群集和spark群集(包含HDFS)是独立的(VM群集上的presto应该访问驻留在spark群集上的HDFS),问题是 -

是否应将这些文件从spark群集复制到VM群集?

apache-spark hdfs yarn presto hdp
1个回答
0
投票

只要将Presto VM配置为边缘节点(也称为网关节点)并拥有所有必需的配置文件和工具,您就不会有任何问题。有关边节点的详细信息,请参阅

© www.soinside.com 2019 - 2024. All rights reserved.