为什么大公司正在使用其他数据库为什么不使用HDFS?

问题描述 投票:1回答:2

我开始知道hadoop用于以更低的成本存储数据(分布式),而我们可以将结构化,非结构化和半结构化数据存储到HDFS中,之后我想到一个问题是youtube提供视频和文本数据所以他们必须HDFS,但当我谷歌它,我只是惊讶他们使用Vitess,BigTable和MariaDB。所以我的问题是为什么HDFS没有满足要求?为什么不使用HDFS?以及如何将数据存储在youtube中,如视频用户数据注释等,是否使用结构化/非结构化或半结构化模式来存储所有不同类型的数据。如果我错了,请告诉我,正确的方法是什么?

hadoop nosql bigdata
2个回答
1
投票

HDFS没有满足要求?为什么不使用HDFS?

Hadoop / HDFS仅支持批处理。它在读取或写入数据时具有更高的响应时间。在一些使用情况下,分钟或秒响应对业务至关重要,必须实时处理大量数据。具有实时用例的公司通常更喜欢低延迟和高可用性工具/应用程序,而不是直接写入hdfs。

说过Hadoop / HDFS确实满足了大公司的大部分数据仓库需求。这里的问题是您尝试使用hadoop / hdfs解决的问题。如果您在一家大公司并且想要处理数PB的数据,通常公司将设置跨越多个节点的大型集群,然后使用spark / mapreduce批量处理存储在系统中的数据。有多种用例,公司使用本地大数据集群(通常是hdfs,map-reduce,hive等)来处理他们的数据。

数据如何存储在youtube中,如视频用户数据注释等,是否使用结构化/非结构化或半结构化模式来存储所有不同类型的数据。

随着公司拥有本地hadoop系统的节点和集群的增加,很难管理这些集群。因此,云计算需要管理云服务提供商的基础架构,而不是希望构建数据解决方案的公司。这是大公司倾向于降低基础架构成本并转向云解决方案而不是使用内部部署基础架构的主要原因之一。像GCP,AWS这样的云提供商拥有Google BigTable,BigQuery等应用程序,它们支持存储大量记录(PetaByte规模)和自动缩放,以防您需要更多节点/集群。

像youtube这样的视频流平台,net​​flix确实利用云基础架构和应用程序来传输其内容。 Netflix确实使用AWS作为其存储和处理引擎,以及Cassandra和MySQL。 Youtube,虽然我不完全确定,但使用谷歌云存储和Bigtable。

希望这可以帮助 :)


0
投票

大公司正在结合不同的数据存储技术,因为没有一个适合所有人的解决方案。

Hadoop和HDFS非常强大,能够以分布式方式弹性存储和处理大量结构化和非结构化数据(Tera字节和Peta字节),计算时间长(分钟是测量单位)。其背后的理念是能够在短期内存储任何类型的数据,并在以后对其进行批处理,并以结构化的方式将结果存储在sql或nosql数据库中,以便将其呈现给最终用户。在这种情况下,hadoop将与其他类型的数据库一起使用。

Nosql数据库也是处理大量数据的一个非常好的解决方案,因为与传统的rdbms相比,它们带来了分布和可扩展性,因此能够查询更大量的结构化数据。但是,他们缺乏正确管理非结构化数据的能力。

知道他们要处理的数据的公司符合nosql数据库或rdbms的存储和处理能力,他们更喜欢这样的解决方案而不是hadoop,因为它们更易于管理,使用和查询。

现在,Hadoop / HDFS是数据存储和处理的低级解决方案。公司需要一个用于数据存储和操作的高级接口,并且更喜欢在大型数据专家的云或本地操作的良好打包解决方案,而不必担心hadoop集群的复杂配置和架构。这是我们找到谷歌大表/查询,亚马逊发电机数据库或cloudera / hortonworks解决方案,准备使用和适当支持。

© www.soinside.com 2019 - 2024. All rights reserved.