用pandas.DataFrame.to_parquet控制行组。

问题描述投票：2回答：1

要将一个拼花文件读取到多个分区，应该使用行组来存储（参见 如何使用daskdask-cudf将一个大的parquet文件读取到多个分区？). pandas文档描述列的分区జజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజజ pyarrow文档介绍了如何编写多行组。. 使用pandas DataFrame .to_parquet 方法，我可以接口写多个行组的能力，还是说它总是写到一个分区？如果可以，怎么做？

虽然数据集很小(目前只有3GB)，但我希望读入多个分区以便后续使用dask处理将使用多个内核（我可以重新分区，但这会产生额外的开销）（我以后可能会处理一些10s的GB的数据集，虽然还是很小，但对RAM来说太大）。

python pandas dataframe parquet

1个回答

0
投票

您可以简单地提供关键字参数 row_group_size 当使用pyarrow时。请注意，pyarrow是默认的引擎。

df.to_parquet("filename.parquet", row_group_size=500, engine="pyarrow")

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.