数据模型指南,有关更改过滤条件的汇总的数据库选择

问题描述 投票:-1回答:1

问题:

我们正在寻找有关使用哪个数据库以及如何对数据建模以有效查询聚合统计信息以及与特定实体相关的统计信息的指南。

我们有不同的基础数据,但是此示例应展示基本问题:

假设您拥有Facebook好友请求和互动的数据。您现在想回答以下问题:

  • [在2018年,哪个美国人最喜欢ACDC的德国朋友]
  • X主题Y上与之互动最频繁的朋友?]
  • 一般的问题是,我们要计算其统计数据的实体以及要计算其统计数据的相关相关实体都有很多变化的过滤条件(国家,主题,兴趣,时间)。

    非功能性要求:

  • 这是一个脱机用例,表示没有插入,删除或发生更新时,每隔X周就会导入一个新的完整转储以替换旧数据。
  • 我们希望上限为10秒回答我们的问题。越快,查询的最大2秒越长越好。
  • 实际数据有大约100-200百万个条目,增长率是线性的。
  • 系统必须为有限数量的并发用户提供服务,最多100个。
  • 问题:

  • 什么是解决我们问题的正确数据库技术或技术组合?
  • 什么是在多个维度上更改过滤条件的情况下用于计算聚合的有效数据模型?
  • (奖励)给定特定技术的估计硬件需求是多少?
  • 到目前为止我们尝试了什么:

  • 使用非规范化的条目设置文档存储。问题:它在一般查询上的表现不佳,因为它必须扫描太多条目以进行聚合。
  • 使用标准化条目建立图形数据库。问题:在聚合上的表现甚至更差。
  • 问题:我们正在寻找有关使用哪个数据库以及如何对数据建模以有效查询聚合统计信息以及与特定实体相关的统计信息的指南。我们有...

sql database database-design graph-databases olap
1个回答
0
投票

您正在谈论使用哪个数据库,但是听起来您需要一个[[数据仓库或商业智能]]解决方案,而不仅仅是一个数据库。

概括地说,区别在于,数据仓库(DW)可以支持多个报告视图,自定义数据模型和/或预聚合,这可以使您进行高级分析和详细过滤。数据仓库倾向于保存大量数据,并且通常构建为具有高度可伸缩性和灵活性(就如何使用数据而言)。有关DW和数据库之间差异的更多详细信息,请查看this article
© www.soinside.com 2019 - 2024. All rights reserved.