RDD和Spark中的数据帧之间有什么区别

问题描述 投票:0回答:1

我通过链接What's the difference between RDD and Dataframe in Spark?

  • 为了执行该操作必须创建RDD,我们可以开始使用数据帧。 RDD是否比Dataframe有任何优势

  • 我们能否在spark上运行Pandas,numpy数据框架功能。对于numpy的np.where和对像df.groupby [“]。agg()

  • 这样的大熊猫
pandas apache-spark
1个回答
0
投票

对于结构化数据,您不需要使用RDD。您可以将Dataframe或Dataset用于Scala和Java。对于Python,您需要使用Dataframe。 Please see official guide.

对于非结构化数据,您仍然需要使用RDD。

[Dataframe通常提供最快的性能(根据Mathei的书)。

数据框语法(使用Spark SQL)可以支持几乎所有类似SQL的函数。您也可以使用please see Pandas guide熊猫。

Project Koala可以在Spark上使用熊猫的语法。与熊猫相比,我更喜欢使用它。 Here is the Koala guide

© www.soinside.com 2019 - 2024. All rights reserved.