Databricks 和 Spark 有什么区别?

问题描述 投票:0回答:2

我试图清楚地了解它们是如何相互关联的,以及使用其中一个是否总是需要使用另一个。如果您可以对它们中的每一个给出非技术性的定义或解释,我将不胜感激。 请不要粘贴两者的技术定义。我不是软件工程师、数据分析师或数据工程师。

database apache-spark data-science azure-databricks
2个回答
12
投票

这两段全面总结了差异(来自this来源):

Spark 是一个通用的集群计算系统,可用于多种用途。 Spark 提供了类似于 MapReduce 的接口,但允许更复杂的操作,例如查询和迭代算法。 Databricks 是一个构建在 Spark 之上的工具。它允许用户开发、运行和共享基于 Spark 的应用程序。

Spark 是一个强大的工具,可用于分析和操作数据。它是一个开源集群计算框架,用于以更快、更高效的方式处理数据。 Databricks 是一家使用 Apache Spark 作为平台来帮助公司和企业加速工作的公司。 Databricks 可用于创建集群、运行作业和创建笔记本。它可用于共享数据集,并可与其他工具和技术集成。 Databricks 是一个有用的工具,可用于快速高效地完成工作。

简单来说,Databricks 有一个构建在 Apache Spark 之上的工具,但它以直观的方式包装和操作它,更易于人们使用。

这原则上与 Hadoop 和 AWS EMR 之间的差异相同。


0
投票

Databricks 构建在 Spark 之上并添加了:

  • 高度可靠和高性能的数据管道
  • 大规模高效的数据科学

官方概念 - https://www.databricks.com/spark/comparing-databricks-to-apache-spark

© www.soinside.com 2019 - 2024. All rights reserved.