用pandas.DataFrame.to_parquet控制行组。

问题描述 投票:2回答:1

要将一个拼花文件读取到多个分区,应该使用行组来存储(参见 如何使用daskdask-cudf将一个大的parquet文件读取到多个分区?). pandas文档 描述列的分区జజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజ pyarrow文档介绍了如何编写多行组。. 使用pandas DataFrame .to_parquet 方法,我可以接口写多个行组的能力,还是说它总是写到一个分区? 如果可以,怎么做?

虽然数据集很小(目前只有3GB),但我希望 读入多个分区 以便后续使用dask处理将使用多个内核(我可以重新分区,但这会产生额外的开销)(我以后可能会处理一些10s的GB的数据集,虽然还是很小,但对RAM来说太大)。

python pandas dataframe parquet
1个回答
0
投票

您可以简单地提供关键字参数 row_group_size 当使用pyarrow时。请注意,pyarrow是默认的引擎。

df.to_parquet("filename.parquet", row_group_size=500, engine="pyarrow")
© www.soinside.com 2019 - 2024. All rights reserved.