使用简单模型对 1TB 数据进行报告/分析的数据库

大数据=1TB，每年增长10%。模型很简单..一张表有25列。不与其他表连接。

我希望对 25 列的子集进行简单的查询过滤。

我猜想传统的 SQL 存储在过滤列上有索引是必要的。 Hadoop 太过杀伤力并且没有意义，因为这是针对实时服务的。 MongoDB？像 pentaho 这样的双引擎？

有什么推荐吗？

3
投票

传统的解决方案听起来确实不错，除非对您所描述的非常简单的模型不会有任何重大变化。

NoSQL 听起来不是 BI / 报告的最佳选择。

获得好的硬件。花时间进行性能测试并构建所有所需的索引。实施适当的新数据上传策略。根据您的需求和性能测试，在 PostgreSQL 中实现表级分区。

附注如果我现在有机会从 ORACLE/DB2 切换，我肯定会选择 PostgreSQL。

1
投票

我建议在这里调查 Infobright - 它是基于列的和压缩的，所以你不会存储完整的 TB，有一个开源版本，这样你就可以尝试它，而不会被一群销售人员打电话（但上次我发现 OSS 版本缺少一些真正有用的东西，所以你最终可能需要许可证）。上次我尝试过，它在外界看来就像MySQL，所以集成起来并不难。当我上次检查它时，它是面向单服务器的，并声称可以在单服务器上处理高达 50TB 的数据。我认为如果你决定朝这个方向发展，Infobright 可以坐在 Pentaho 后面。

infobright 的优点是它非常接近无管理员 - 没有手动索引或索引维护。

0
投票

听起来列存储会有帮助。取决于您如何处理插入，以及是否需要进行更新。但是，如果您要商业化，那么与 infobright 一样，然后结帐 Vectorwise，它速度更快且价格相似。

如果您想要免费/开源，请查看 Luciddb - 文档不多，但它的功能非常好！

如果您想要令人难以置信的速度，请查看 Vectorwise。我相信它的价格与 infobright 差不多，但速度更快。

问题描述投票：0回答：3

3个回答

最新问题

使用简单模型对 1TB 数据进行报告/分析的数据库

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3