我试图了解数据集和数据框架之间的区别,并找到了以下有用的链接,但是我无法理解类型安全是什么意思?
Difference between DataFrame (in Spark 2.0 i.e DataSet[Row] ) and RDD in Spark
类型安全是Spark 2.0中的高级API。
我们需要此API在数据集中的行上执行更复杂的操作。
例如...
departments.joinWith(people,department(“ id”)=== people(“ deptId”),“ left_outer”)。show