如何将CSV文件作为数据集导入PySpark?请注意,我并不是在问如何将它们导入dataframes。
从Databricks阅读此页时,我了解了数据集优于数据框的一些好处。
https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html
我想学习如何使用它们而不是RDD和数据框。
linked博客文章为您提供了一个答案,因为python,这是不可能的:
注意:由于Python和R没有编译时类型安全,所以我们只有未类型化的API,即DataFrames。