哪种方式是最好的读取parquet文件处理为dask数据框架的方式。

问题描述 投票:0回答:1

我有一个目录,里面有一些小的parquet文件(600),我想在这些parquet上做ETL,并将这些parquet合并到每个文件128mb。

我是应该读取parquet目录下的每个文件,然后作为一个单一的数据帧进行concat,然后进行groupBY? 还是提供parquet目录名给dd.read_parquet,然后进行处理?

我感觉,当我逐个文件读取时,会产生一个非常大的dask图,不能作为一个图像。我想也可以用那些数量众多的线程吗,这就会导致内存错误。

哪种方式是最好的读取parquet文件作为dask数据框架处理? 逐个文件或提供整个目录?

python dask parquet pyarrow dask-dataframe
1个回答
0
投票

遗憾的是,没有一个最好的方式来读取Parquet文件,适合所有情况。 为了正确回答这个问题,你需要了解更多关于你的情况。

© www.soinside.com 2019 - 2024. All rights reserved.