我有一个
.parquet
文件,想使用 Python 按列快速高效地查询该文件。
例如,我可能在该
name
文件中有一个列 .parquet
,并且想要取回具有所选名称的第一行(或全部)行。
如何在 Polars API 或 FastParquet(以更快者为准)中查询这样的 parquet 文件?
我认为
pl.scan_parquet
可能会有帮助,但意识到它似乎并非如此,或者我只是不明白。最好,虽然不是必需的,但我们不必先将整个文件读入内存,以减少内存和 CPU 的使用。
感谢您的帮助。
说到快速镶木地板...
Fastparquet 是一个用于将 parquet 数据快速加载到 pandas 数据框中的库。你没有说你想在上面运行什么查询,但这将取决于 pandas (并且可能非常快)。 Fastparquet 确实允许在加载阶段使用许多选项,例如过滤值或选择列或选择数据类型,这些都会对加载时间产生显着影响,但会影响您随后可以执行的查询。在不了解后者的情况下,我们无法就前者提供建议(极地人士也会同意)。