使用简单模型对 1TB 数据进行报告/分析的数据库

问题描述 投票:0回答:3

大数据=1TB,每年增长10%。 模型很简单..一张表有25列。 不与其他表连接。

我希望对 25 列的子集进行简单的查询过滤。

我猜想传统的 SQL 存储在过滤列上有索引是必要的。 Hadoop 太过杀伤力并且没有意义,因为这是针对实时服务的。 MongoDB?像 pentaho 这样的双引擎?

有什么推荐吗?

postgresql hadoop nosql analytics business-intelligence
3个回答
3
投票

传统的解决方案听起来确实不错,除非对您所描述的非常简单的模型不会有任何重大变化。

NoSQL 听起来不是 BI / 报告的最佳选择。

获得好的硬件。花时间进行性能测试并构建所有所需的索引。实施适当的新数据上传策略。根据您的需求和性能测试,在 PostgreSQL 中实现表级分区

附注如果我现在有机会从 ORACLE/DB2 切换,我肯定会选择 PostgreSQL。


1
投票

我建议在这里调查 Infobright - 它是基于列的和压缩的,所以你不会存储完整的 TB,有一个开源版本,这样你就可以尝试它,而不会被一群销售人员打电话(但上次我发现 OSS 版本缺少一些真正有用的东西,所以你最终可能需要许可证)。上次我尝试过,它在外界看来就像MySQL,所以集成起来并不难。当我上次检查它时,它是面向单服务器的,并声称可以在单服务器上处理高达 50TB 的数据。我认为如果你决定朝这个方向发展,Infobright 可以坐在 Pentaho 后面。

infobright 的优点是它非常接近无管理员 - 没有手动索引或索引维护。


0
投票

听起来列存储会有帮助。取决于您如何处理插入,以及是否需要进行更新。但是,如果您要商业化,那么与 infobright 一样,然后结帐 Vectorwise,它速度更快且价格相似。

如果您想要免费/开源,请查看 Luciddb - 文档不多,但它的功能非常好!

如果您想要令人难以置信的速度,请查看 Vectorwise。我相信它的价格与 infobright 差不多,但速度更快。

© www.soinside.com 2019 - 2024. All rights reserved.