Cassandra 上的数据分析

问题描述 投票:0回答:2

我们使用 Apache Cassandra 来保存数据。除了 Spark 之外,从 cassandra 读取数据后执行数据分析的工具/技术是什么。 Spark很好,但它需要程序员(java/scala/python)来添加/修改未来的需求,这导致维护成本很高。还有什么其他选择?

cassandra apache-spark data-analysis
2个回答
2
投票

如果您想在 Cassandra 之上使用 Spark,许多人已经使用 Cassandra、Hive 和 Hadoop 取得了良好的结果。其他人使用 Cassandra、Hive 和 Solr 的混合实现了类似的结果。

另一套不错的幻灯片和教程,用于通过 Cassandra 和 Hadoop 运行数据分析。您可以通过提供页面上的 PDF 下载找到更深入的解释。

如果您有兴趣继续追求 Spark,您可以评估 DataStax Enterprise,它消除了复杂性,并允许您直接在 Cassandra 之上运行 Spark。

为了回答您的问题,您有一些经过行业验证的选项......主要是 Hadoop 和 Hive。


0
投票

啊,我明白你从哪里来了!因此,您正在寻找 Spark 的替代方案来分析来自 Cassandra 的数据,而无需编写太多代码,对吗?完全明白了!虽然 Spark 在大数据处理方面非常出色,但它对编程的依赖确实会导致更高的维护成本。

但不要害怕!有一些替代方案可能更适合您的需求。让我们探讨几个:

  1. Apache Flink: 您可以将 Flink 视为 Spark 的亲戚。它在处理流处理和批处理方面做得很好,类似于 Spark。然而,使用 SQL 支持和更直观的 API 等功能会更方便。此外,Flink 因其低延迟处理而获得认可,这在特定情况下可能是一个优势。

  2. Apache Kafka Streams: 现在,这有点独特。借助 Kafka Streams,您可以直接处理来自 Apache Kafka(另一种大数据工具)的数据,而不需要单独的处理引擎(例如 Spark 或 Flink)。与 Spark 相比,它的重量更轻,并且可能更易于设置和维护。 这些可能是减轻您当前 Spark 面临的维护负担的潜在解决方案。此外,每个选项都有自己的社区和支持系统,可以帮助您启动。

对于 Apache Flink,您可以查看他们的官方文档以获取教程和指南。

同样,可以找到很多关于 Apache Kafka 流的资源。其中包括提供详细开始方法的官方文档

请记住,这就像为任务寻找正确的工具!因此,您应该花一些时间查看这些其他选择,看看哪些最适合您团队的要求和需求。祝分析顺利!

© www.soinside.com 2019 - 2024. All rights reserved.