将CSV文件作为PySpark数据集导入（不包含数据框）

如何将CSV文件作为数据集导入PySpark？请注意，我并不是在问如何将它们导入dataframes。

从Databricks阅读此页时，我了解了数据集优于数据框的一些好处。

我想学习如何使用它们而不是RDD和数据框。

python apache-spark pyspark apache-spark-dataset

1
投票

linked博客文章为您提供了一个答案，因为python，这是不可能的：

注意：由于Python和R没有编译时类型安全，所以我们只有未类型化的API，即DataFrames。