在火花,弹性分布式数据集(RDDS)是低级别的API和dataframes是一个高层次的API,所以我的问题是,当使用低级别的API?
星火拥有的API的两个基本组:低层次的“非结构化”的API,以及更高层次的结构化的API。
RDD可以是过程既结构以及其中的数据帧将数据组织成排列格式因此适用于结构化的数据的非结构化数据。你可以转换一个数据帧,如果需要RDD。
在一般人使用数据帧,因此高层次的API,因为它提供了更多的选择。但是,这纯粹取决于你的需求。
我会建议你阅读或者通过书籍,如“学习星火”或“星火-The Defintive指南”,更多的澄清。