我有一个目录,里面有一些小的parquet文件(600),我想在这些parquet上做ETL,并将这些parquet合并到每个文件128mb。
我是应该读取parquet目录下的每个文件,然后作为一个单一的数据帧进行concat,然后进行groupBY? 还是提供parquet目录名给dd.read_parquet,然后进行处理?
我感觉,当我逐个文件读取时,会产生一个非常大的dask图,不能作为一个图像。我想也可以用那些数量众多的线程吗,这就会导致内存错误。
哪种方式是最好的读取parquet文件作为dask数据框架处理? 逐个文件或提供整个目录?
遗憾的是,没有一个最好的方式来读取Parquet文件,适合所有情况。 为了正确回答这个问题,你需要了解更多关于你的情况。