Spark DataFrame 中的领域特定语言 API 是什么? [重复]

问题描述 投票:0回答:1

需要示例帮助来了解 Spark DataFram 中的 DSL

“DataFrame 允许开发人员将结构强加到分布式数据集合上,从而实现更高级别的抽象;它提供了特定于领域的语言 API 来操作分布式数据”

在上面的定义中,什么是用于操作分布式数据的领域特定语言 API?这是什么意思。请用一些代码示例来解释

apache-spark dataframe
1个回答
2
投票

没有上下文很难确定,但我认为作者的意思是:

DataFrame 有一个 API(一组可以调用的函数),它为处理内部数据提供了比直接处理数据更高级别的抽象。

例如,要执行“分组依据”(如在 SQL 中),您可以将数据存储在数组中,并使用 for 循环对其进行循环,同时保留包含分组键和相应值的字典。或者您可以直接在 DataFrame 上调用“groupBy”,这向您隐藏了复杂性 - 与使用数据循环数组的更具体概念相比,它通过允许您使用更抽象的分组概念来“抽象它” .

此类抽象有时称为 DSL,因为您可以将函数调用视为特定于此类问题/域的编程语言本身,即 DataFrame 中的数据。

© www.soinside.com 2019 - 2024. All rights reserved.