如何使用 Polars Python API 查询镶木地板文件?

问题描述 投票:0回答:1

我有一个

.parquet
文件,想使用 Python 按列快速高效地查询该文件。

例如,我可能在该

name
文件中有一个列
.parquet
,并且想要取回具有所选名称的第一行(或全部)行。

如何在 Polars API 或 FastParquet(以更快者为准)中查询这样的 parquet 文件?

我认为

pl.scan_parquet
可能会有帮助,但意识到它似乎并非如此,或者我只是不明白。最好,虽然不是必需的,但我们不必先将整个文件读入内存,以减少内存和 CPU 的使用。

感谢您的帮助。

python parquet python-polars fastparquet
1个回答
0
投票

说到快速镶木地板...

Fastparquet 是一个用于将 parquet 数据快速加载到 pandas 数据框中的库。你没有说你想在上面运行什么查询,但这将取决于 pandas (并且可能非常快)。 Fastparquet 确实允许在加载阶段使用许多选项,例如过滤值或选择列或选择数据类型,这些都会对加载时间产生显着影响,但会影响您随后可以执行的查询。在不了解后者的情况下,我们无法就前者提供建议(极地人士也会同意)。

© www.soinside.com 2019 - 2024. All rights reserved.