我通过链接What's the difference between RDD and Dataframe in Spark?
为了执行该操作必须创建RDD,我们可以开始使用数据帧。 RDD是否比Dataframe有任何优势
我们能否在spark上运行Pandas,numpy数据框架功能。对于numpy的np.where和对像df.groupby [“]。agg()
对于结构化数据,您不需要使用RDD。您可以将Dataframe或Dataset用于Scala和Java。对于Python,您需要使用Dataframe。 Please see official guide.
对于非结构化数据,您仍然需要使用RDD。
[Dataframe通常提供最快的性能(根据Mathei的书)。
数据框语法(使用Spark SQL)可以支持几乎所有类似SQL的函数。您也可以使用please see Pandas guide熊猫。
Project Koala可以在Spark上使用熊猫的语法。与熊猫相比,我更喜欢使用它。 Here is the Koala guide。