HDInsight群集如何作为HDFS映射到Azure存储?

问题描述 投票:0回答:1

我对Hadoop模型的工作原理有一个很好的认识,因为我研究了本地模型,因为这是每个人都可以学习的方式。从这个意义上讲,顶层的想法很简单:我们有一组机器(节点),我们在每个机器上运行某些进程,然后配置这些进程,以使整个事物开始表现为单个逻辑实体我们称为Hadoop(YARN)集群。在这里,HDFS是集群中所有计算机的单个存储之上的逻辑层。但是,当我们开始考虑云中的同一集群时,这几乎不会造成混乱。以HDInsight Hadoop群集为例,假设我已经有一个包含大量文本数据的Azure存储帐户,并且我想进行一些分析,所以我继续在与存储帐户相同的区域中旋转Hadoop群集。现在,Hadoop背后的整个想法是最接近数据存在的地方进行处理。在这种情况下,当我们创建Hadoop群集时,一堆Azure虚拟机在后台启动,并拥有自己的基础存储(尽管在同一区域)。但是,然后,在创建集群时,我们确实指定了一个默认存储帐户,并指定了一些其他存储帐户要附加到要处理的数据所在的位置。因此,理想情况下,要处理的数据需要存在于虚拟机的磁盘上。这件事在Azure中如何工作?我猜虚拟机创建的磁盘实际上是指向Azure存储帐户(默认+附加)的指针?这部分内容并没有得到很好的解释,而且还很模糊。因此,包括我在内的许多人在学术上学习经典的本地Hadoop模型并开始在现实世界中使用基于云的群集时,总是漆黑一片。如果我们可以直接从Azure门户的“群集概述”页面上看到有关这些虚拟机的更多信息,则将有助于您理解。我知道可以从Ambari看到它,但是Ambari仍然对Azure视而不见,它是一个独立的组件,因此并不是很有用。

hdinsight
1个回答
0
投票

有一个底层驱动程序,可作为将Azure存储作为HDFS映射到HDInsight中运行的其他服务的桥梁。

您可以在下面的官方页面上阅读有关此驱动程序功能的更多信息。

https://hadoop.apache.org/docs/current/hadoop-azure/index.html

如果您的Azure存储帐户的类型为ADLS Gen 2(Azure Data Lake Storage Gen2),则使用的驱动程序会有所不同,可以在以下官方页面下找到。这提供了ADLS Gen2的一些高级功能来增强您的HDInsight性能。

https://hadoop.apache.org/docs/current/hadoop-azure/abfs.html

最后,与本地Hadoop安装相同,HDInsight也具有在整个HDInsight群集VM硬盘驱动器上部署的本地HDFS。您可以使用URI如下访问此本地HDFS。

hdfs://mycluster/

例如,您可以发出以下命令来查看本地HDFS根级别的内容。

hdfs dfs -ls hdfs://mycluster/
© www.soinside.com 2019 - 2024. All rights reserved.