如何仅将几列加载到数据框中？

Question

我正在将文件加载到df。

df=spark.read.csv("path")

如果我尝试上述方法，它将加载整个CSV文件，该文件有20列，但是我只想读取其中的5列。有办法吗？

Answer 1

阅读之前，您无法执行选择。

df=spark.read.csv("path")
        .select(my_cols)

为了获得更好的读取（和写入）性能，您应将CSV转换为列式存储格式的Parquet文件。