我试图清楚地了解它们是如何相互关联的,以及使用其中一个是否总是需要使用另一个。如果您可以对它们中的每一个给出非技术性的定义或解释,我将不胜感激。 请不要粘贴两者的技术定义。我不是软件工程师、数据分析师或数据工程师。
这两段全面总结了差异(来自this来源):
Spark 是一个通用的集群计算系统,可用于多种用途。 Spark 提供了类似于 MapReduce 的接口,但允许更复杂的操作,例如查询和迭代算法。 Databricks 是一个构建在 Spark 之上的工具。它允许用户开发、运行和共享基于 Spark 的应用程序。
Spark 是一个强大的工具,可用于分析和操作数据。它是一个开源集群计算框架,用于以更快、更高效的方式处理数据。 Databricks 是一家使用 Apache Spark 作为平台来帮助公司和企业加速工作的公司。 Databricks 可用于创建集群、运行作业和创建笔记本。它可用于共享数据集,并可与其他工具和技术集成。 Databricks 是一个有用的工具,可用于快速高效地完成工作。
简单来说,Databricks 有一个构建在 Apache Spark 之上的工具,但它以直观的方式包装和操作它,更易于人们使用。
这原则上与 Hadoop 和 AWS EMR 之间的差异相同。
Databricks 构建在 Spark 之上并添加了:
官方概念 - https://www.databricks.com/spark/comparing-databricks-to-apache-spark