PYspark中的RDD创建

问题描述 投票:0回答:1

Spark中的所有内容都以RDD(键和值对)的形式创建。这有必要吗?可以通过RDD数据集创建/执行哪种类型的分析?请提供将其转换为RDD的示例和用法

谢谢,Aditya

pyspark
1个回答
0
投票

Spark用于解决涉及需要进行数据转换的大型数据集的问题,Spark是使用函数式编程语言(Scala)而不是命令式语言(C或C ++)构建的,因为函数式编程允许在多个节点之间以惰性方式分离任务。命令式编程范例无法做到的集群,依赖于外部数据存储来使分布式算法工作。在Spark中,有许多库执行分布式机器学习算法,这对于标准的R或Python脚本是不可能的

© www.soinside.com 2019 - 2024. All rights reserved.