大数据项目的哪种架构?

问题描述 投票:0回答:1

这听起来像是一个非常笼统的问题,我希望得到“是,但是”答案。

[预计明年会有100 Gb的各种数据到达,我想建立一个稳定的结构。这些数据将定期(每月一次)用于静态分析,但我们还将提供仪表板,其中要求在5秒钟内发出请求,然后进行一些分析。

我的想法如下:(1)在Ubuntu VM集群上设置Cassandra BD(2)将cassandra与elasticsearch链接以确保快速阅读(3)在顶部添加火花以进行分布式分析(4)使用kibana或grafana仪表板控制整体。

我想知道,这个问题是否属于SO,因为它不是纯粹的编码问题。如果不是这样,我事先表示歉意。

apache-spark elasticsearch cassandra spark-cassandra-connector
1个回答
0
投票

如果您打算构建的集群将出于临时/ POC目的而临时构建,则可以继续使用此方法。

但是,如果不是用例,那么我强烈建议您先将它们分成不同的层提取->控制数据流入。确定如何处理数据目录/模式演变。ETL->如何清理,转换,加载(TL)数据以创建数据多维数据集/仓库。BI->您希望如何与数据存储建立连接器,以将其公开给外部用户/团队。像Kibana / Grafana / Superset这样的决定就在这里。如果您正在考虑ELK堆栈,那么您需要在ETL和BI层之间进行深入的讨论。

© www.soinside.com 2019 - 2024. All rights reserved.