Hadoop用例场景

我希望在我的一个项目场景中对Hadoop等大数据平台的使用有一些专家意见。虽然我很了解像MySQL这样的数据库，但我是这项技术的新手。

我们正在创建一种用于分析社交媒体数据的产品。因此输入数据将是大量的推文，Facebook帖子，用户配置文件，YouTube数据和来自博客的数据等。除此之外，我将有一个Web应用程序来帮助我查看和分析这些数据。正如要求所表明的那样，我需要一种实时系统。因此，如果我有一条推文，我想将它提供给我的网络应用程序，以便进行处理。批量数据处理可能不适合我的应用程序。

我的问题是：

Hadoop引擎对我来说是个不错的选择吗？
我的决定应该以什么为参数？
与Hadoop相比，使用Multi Cluster MySQL引擎也是一个不错的选择吗？
在Hadoop成为一个好选择的数据的大小和速度方面是否有任何基准？

6
投票

Hadoop不适合近实时/交互式分析。 Hadoop被设计用于进行数小时数据的大批量处理。我曾经使用Hadoop处理任何大约10 GB或更多的数据集（这仍然有点矫枉过正），一旦达到100 GB，那么你就需要像Hadoop这样的东西。

现在我的建议是针对Spark，因为它更现代，更快，更灵活，更强大，并且具有SparkStreaming模块，可实现更接近实时的分析。阅读所有关于它的内容！ https://spark.apache.org/

1
投票

在这种情况下，我更喜欢Lambda架构。

使用Lambda Architecture，您有两条路径：一条快速路由，其中包含用于当前信息的noSQL数据库，以及一条带有hadoop-hdfs的批处理路由，用于归档数据，并且使用合并组件，您可以在一个查询中合并两个数据源，因此您接收大量数据，几乎是实时的。

http://lambda-architecture.net/

关于lambda架构的图片：http://i.stack.imgur.com/eofRW.png

我们创建了一个带Lambda架构的PoC项目（也用于Twitter分析），并且它的工作正常。

0
投票

Spark将是您问题的最佳解决方案。您还可以查看其他内存数据库。

问题描述投票：2回答：3

3个回答

最新问题

Hadoop用例场景

问题描述 投票：2回答：3

3个回答

最新问题

问题描述投票：2回答：3