管理大数据中的数据[关闭]

问题描述 投票:1回答:3

我正在阅读有关傻瓜大数据的书。

欢迎来到傻瓜大数据。大数据正在成为最重要的技术趋势之一,有可能大大改变组织使用信息的方式,以增强客户体验并转变其业务模式。

大数据使组织能够以正确的速度和时间存储,管理和操作大量数据,以获得正确的见解。理解大数据的关键是必须管理数据,以便它能够满足给定解决方案旨在支持的业务需求。大多数公司都在处于大数据之旅的早期阶段。

我可以理解存储意味着我们必须存储在DBMS中

我对上述文字的疑问。

  1. 作者在上述环境中管理大量数据意味着什么?示例将有所帮助。
  2. 作者用大数据改变他们的商业模式是什么意思?再举一个例子会很有帮助。
  3. 作者的意思是“在上述环境中操纵大量数据?
database data-science bigdata
3个回答
2
投票

以下是您的问题的答案:

1.作者在上述环境中管理大量数据意味着什么?示例将有所帮助。

答。当我们谈论Bigdata时,我们提到它的大规模数据。上述上下文中的大量数据表明我们可以使用bigdata平台处理的数据量的提示​​。它可能在太字节到数PB甚至更多的范围内。对于古老的关系系统而言,这一数据量是无法管理的。

Example : Twitter, Facebook, Google etc. handling Petabytes of data on a daily basis.

2.作者是什么意思“组织用大数据转换他们的商业模式”?再举一个例子会很有帮助。

答。通过使用bigdata技术,组织可以对其业务模型有深入的了解,因此他们可以制定未来的战略,帮助他们在市场中争夺更多的业务份额。

Example : Online Retail giant Amazon thrives on user data that helps them know about user's online shopping pattern and hence they create more products and services that are likely to shoot up the business and take them way ahead of their competitors.

3.作者的意思是“在上述环境中操纵大量数据?示例将有所帮助。

答。我们可以使用大数据管理大量数据,但管理还不够。因此,我们使用复杂的工具来帮助我们操纵数据,使其变成商业洞察并最终变成金钱。

Example : Clickstream data. This data consists of user clicks on websites, how much time he/she spent on a particular site, on a particular item etc. All these things when manipulated properly results in greater business insights about the users and hence a huge profit.


0
投票
  1. 大量数据意味着大尺寸文件不是MB或GB,可能是Tera Byte。例如,一些社交网站每天生成大约6 TB的数据。
  2. 使用传统RDBMS处理数据的组织。但他们正在实施Hadoop,Spark来轻松管理大数据。因此,他们日复一日地在新技术的帮助下改变他们的商业策略。通过分析洞察力,他们可以轻松获得客户视图。

0
投票

您的假设/理解“我能理解存储意味着我们必须存储在DBMS中”

好久不远。我在这里的详细答案中回答了这个问题。详细说明,您可以提前了解大数据概念。 (我将在随后的另一个答案中提供您列出的问题的答案。)

  1. 它不仅仅是DBMS / RDBMS。它的数据存储包括文件系统到数据存储。
  2. 在大数据上下文中,它指的是a)大数据(数据本身)和b)存储系统 - 分布式文件系统(高可用性,可扩展性,容错性是显着特征。目标是高吞吐量和低延迟。)处理在I / O和(持久/一致)存储方面,传统DBMS的大容量(多个)(不一定是同源的或一种类型的数据)。和(扩展)c)大数据生态系统,包括系统,框架,处理和处理(和/或基于)上述两个的项目。例。 Apache Spark。
  3. 它可以存储任何文件,包括原始文件。 DBMS等效的大数据数据存储系统允许为数据提供结构或存储结构化数据。
  4. 当您将数据存储在任何普通用户设备(计算机,硬盘或外部硬盘)上时,您可以将大数据存储视为商用硬件和存储组件(具有可配置网络的群集(已定义/可配置的网络节点集合))至少是IP,因此您通常需要将存储设备或磁盘安装/连接到计算机系统或服务器以具有IP)以提供单个聚合分布式(数据/文件)视图存储/存储系统。
  5. 所以数据:结构化(传统的DBMS等价物),关系结构(RDMS等价物),非结构化(例如,文本文件等)和半结构化文件/数据(csv,json,xml等)。
  6. 对于大数据,它可以是平面文件,文本文件,日志文件,图像文件,视频文件或二进制文件。
  7. 还有面向行和/或面向列的数据(当结构化/半结构化数据存储/处理为数据库/数据仓库数据时。示例:Hive是Hadoop上/的数据仓库,允许存储结构化关系数据和原始文件格式的csv文件等,或者像镶木地板,avro,ORC等任何特定的文件格式。
  8. 在数量/大小方面,虽然单个文件可以是(KB不推荐)MB,GB或某些时候TB聚合为TB和PB(或更多;没有官方限制)存储在整个商店的任何时间点/系统。
  9. 它可以是批量数据或离散流数据或流实时数据和源。
  10. (广泛的数据在性质,大小和数量等方面超越了大数据)

初学者预订:11。就初学者而言,虽然“傻瓜大数据”并不是一个糟糕的选择(虽然我没有亲自阅读,但在我的软件工程学位期间,我知道他们的系列/风格研究回来。)12。我建议你选择“Hadoop:The Definitive Guide”一书。您应该选择恰好是第4版(2015年)的最新版本。它基于Hadoop 2.x.虽然它没有使用最新的2.x更新进行增强,但您会发现它非常适合阅读和阅读。

超越:

  1. 虽然Hadoop 3处于alpha阶段,但您现在不用担心这一点。
  2. 请关注Apache Hadoop站点和文档。 (参考:http://hadoop.apache.org/)也了解并学习Hadoop生态系统。
  3. (尽管Hadoop基于大数据概念,但大数据和Hadoop现在几乎成了同义词.Hadoop是一个开源Apache项目。用于生产。)
  4. 我提到的文件系统是HDFS(Hadoop分布式文件系统)(和/或类似的)。
  5. 否则,它是其他云存储系统,包括AWS S3,Google云端存储和Azure Blob存储(对象存储)。
  6. 大数据也可以存储在NoSQL DB / s上,它可以作为非关系灵活的架构数据存储DBMS,但不能为严格的关系数据进行优化。如果存储关系数据,则默认情况下会删除/中断关系约束。虽然提供了接口,但它们本身并不是面向SQL的。 NoSQL DB如HBase(基于HDFS和基于Big Table),Cassandra,MongoDB等,取决于数据类型(或直接文件)存储和CAP定理的属性处理。
© www.soinside.com 2019 - 2024. All rights reserved.