Spark Scala中DataSet[Row]和sql.DataFrame类型的区别[重复]

问题描述 投票:0回答:1

我对2个数据类型感到困惑。DataSet[Row]sql.DataFrame. 从各种文件等中提到,DataFrame只不过是 DataSet[Row]. 那么什么是 sql.DataFrame.下面是代码,我看到不同的类型返回,你能不能解释一下这些之间的差异。

以下代码返回的类型为 DataSet[Row] (按intellij方法的返回类型)

serverDf.select(from_json(col("value"), schema) as "event")
  .select("*")
      .filter(col("event.type").isin(eventTypes_*))

下面的代码片段返回类型为 sql.DataFrame

serverDf.select(from_json(col("value"), schema) as "event")
  .select("*")

先谢谢你

scala apache-spark spark-streaming
1个回答
1
投票

这两者是一样的,因为它是在 文件:

每个Dataset还有一个非类型的视图,叫做DataFrame,它是一个Dataset of Row。

它只是一个 别名:

type DataFrame = Dataset[Row]

在intellij中,由于方法的签名不同,它们可能有不同的结果类型。

© www.soinside.com 2019 - 2024. All rights reserved.