我有以下数据管道:
编辑:我想让Table1,... TableN实时更新!
您需要历史数据来执行汇总和汇总。 Tableau可能会缓存数据集,但它本身不会永久存储。因此,您需要
某些存储空间,并且选择使用HDFS而不是数据库。
注意:Hive / Presto可以直接从Kafka阅读。因此,您甚至根本不需要Spark。[如果您想从Kafka滚动汇总并使其可查询,则可以使用KSQL,或者您可以编写自己的Kafka Streams解决方案
推荐:将火花流与诸如HBASE,Phoenix之类的低延迟数据库一起使用。
解决方案:
使用Kafka作为源开发Spark流作业,并使用自定义接收器将数据写入Hbase / Phoenix。