如何仅将几列加载到数据框中?

问题描述 投票:0回答:1

我正在将文件加载到df

df=spark.read.csv("path")

如果我尝试上述方法,它将加载整个CSV文件,该文件有20列,但是我只想读取其中的5列。有办法吗?

dataframe apache-spark pyspark apache-spark-sql pyspark-sql
1个回答
0
投票

阅读之前,您无法执行选择。

df=spark.read.csv("path")
        .select(my_cols)

为了获得更好的读取(和写入)性能,您应将CSV转换为列式存储格式的Parquet文件。

© www.soinside.com 2019 - 2024. All rights reserved.