大数据项目的哪种架构？

大数据项目的哪种架构？

问题描述投票：0回答：1

这听起来像是一个非常笼统的问题，我希望得到“是，但是”答案。

[预计明年会有100 Gb的各种数据到达，我想建立一个稳定的结构。这些数据将定期（每月一次）用于静态分析，但我们还将提供仪表板，其中要求在5秒钟内发出请求，然后进行一些分析。

我的想法如下：（1）在Ubuntu VM集群上设置Cassandra BD（2）将cassandra与elasticsearch链接以确保快速阅读（3）在顶部添加火花以进行分布式分析（4）使用kibana或grafana仪表板控制整体。

我想知道，这个问题是否属于SO，因为它不是纯粹的编码问题。如果不是这样，我事先表示歉意。

apache-spark

elasticsearch

cassandra

spark-cassandra-connector

1个回答

0
投票

如果您打算构建的集群将出于临时/ POC目的而临时构建，则可以继续使用此方法。

但是，如果不是用例，那么我强烈建议您先将它们分成不同的层提取->控制数据流入。确定如何处理数据目录/模式演变。ETL->如何清理，转换，加载（TL）数据以创建数据多维数据集/仓库。BI->您希望如何与数据存储建立连接器，以将其公开给外部用户/团队。像Kibana / Grafana / Superset这样的决定就在这里。如果您正在考虑ELK堆栈，那么您需要在ETL和BI层之间进行深入的讨论。

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1