我正在将文件加载到df。
df
df=spark.read.csv("path")
如果我尝试上述方法,它将加载整个CSV文件,该文件有20列,但是我只想读取其中的5列。有办法吗?
CSV
阅读之前,您无法执行选择。
df=spark.read.csv("path") .select(my_cols)
为了获得更好的读取(和写入)性能,您应将CSV转换为列式存储格式的Parquet文件。