Cassandra 上的数据分析

2
投票

如果您想在 Cassandra 之上使用 Spark，许多人已经使用 Cassandra、Hive 和 Hadoop 取得了良好的结果。其他人使用 Cassandra、Hive 和 Solr 的混合实现了类似的结果。

另一套不错的幻灯片和教程，用于通过 Cassandra 和 Hadoop 运行数据分析。您可以通过提供页面上的 PDF 下载找到更深入的解释。

如果您有兴趣继续追求 Spark，您可以评估 DataStax Enterprise，它消除了复杂性，并允许您直接在 Cassandra 之上运行 Spark。

为了回答您的问题，您有一些经过行业验证的选项......主要是 Hadoop 和 Hive。

0
投票

啊，我明白你从哪里来了！因此，您正在寻找 Spark 的替代方案来分析来自 Cassandra 的数据，而无需编写太多代码，对吗？完全明白了！虽然 Spark 在大数据处理方面非常出色，但它对编程的依赖确实会导致更高的维护成本。

但不要害怕！有一些替代方案可能更适合您的需求。让我们探讨几个：

Apache Flink： 您可以将 Flink 视为 Spark 的亲戚。它在处理流处理和批处理方面做得很好，类似于 Spark。然而，使用 SQL 支持和更直观的 API 等功能会更方便。此外，Flink 因其低延迟处理而获得认可，这在特定情况下可能是一个优势。
Apache Kafka Streams： 现在，这有点独特。借助 Kafka Streams，您可以直接处理来自 Apache Kafka（另一种大数据工具）的数据，而不需要单独的处理引擎（例如 Spark 或 Flink）。与 Spark 相比，它的重量更轻，并且可能更易于设置和维护。这些可能是减轻您当前 Spark 面临的维护负担的潜在解决方案。此外，每个选项都有自己的社区和支持系统，可以帮助您启动。

对于 Apache Flink，您可以查看他们的官方文档以获取教程和指南。

同样，可以找到很多关于 Apache Kafka 流的资源。其中包括提供详细开始方法的官方文档。

请记住，这就像为任务寻找正确的工具！因此，您应该花一些时间查看这些其他选择，看看哪些最适合您团队的要求和需求。祝分析顺利！