哪种方式是最好的读取parquet文件处理为dask数据框架的方式。

问题描述投票：0回答：1

我有一个目录，里面有一些小的parquet文件(600)，我想在这些parquet上做ETL，并将这些parquet合并到每个文件128mb。

我是应该读取parquet目录下的每个文件，然后作为一个单一的数据帧进行concat，然后进行groupBY？还是提供parquet目录名给dd.read_parquet，然后进行处理？

我感觉，当我逐个文件读取时，会产生一个非常大的dask图，不能作为一个图像。我想也可以用那些数量众多的线程吗，这就会导致内存错误。

哪种方式是最好的读取parquet文件作为dask数据框架处理？逐个文件或提供整个目录？

python dask parquet pyarrow dask-dataframe

1个回答

0
投票

遗憾的是，没有一个最好的方式来读取Parquet文件，适合所有情况。为了正确回答这个问题，你需要了解更多关于你的情况。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.