可以在近RDBMS场景中使用哪个hadoop框架

问题描述 投票:0回答:1

我们正处于一个项目的分析阶段,在该项目中,我们将替换基于hdfs和用于报告和查看的配置单元的旧存储系统。

但是我们得到了一个请求,如果我们可以使用hdfs来代替数据库工作的一部分。

预期的情况如下;

  1. 表将存储每日流量数据。大约400个监视点。
  2. 第1点中的某些表将用作流程的输入,该流程将进行一些转换并转储到其他表。
  3. 第1和第2点中的表将用作将在报告门户中使用的视图的基础表。用户可以随时访问该页面。
  4. 预期任何步骤中的加载错误,因此表应支持某些行的删除/更新。
  5. 大约有50%的表可以超过数亿条记录..但其他表将是1k,50k,1M。10M ..,因为这将是一个汇总信息。
  6. 在任何表上都可以通过联接聚合查询。

我知道hadoop的生态系统很大,可以有很多组合,所以我会寻求您的帮助来指导我。

  1. Hive可以支持部分情况,例如点1,2和3.。但是以这种方式使用它(在操作上是可行的)
  2. 还有什么可以用来解决大多数情况? hbase,kudu ..还有其他东西吗?

原谅我..我是这个新手

hadoop hive hdfs hbase
1个回答
0
投票

您可以尝试利用Apache Phoenix:http://phoenix.apache.org/由于该应用程序易于通过HBase安装,因此允许表定义和SQL语法,还支持视图,还支持二级索引。

当然,加入和聚集都是有代价的。并且仍然需要一个好的模型。

© www.soinside.com 2019 - 2024. All rights reserved.