如何使用 Polars Python API 查询镶木地板文件？

Question

我有一个

.parquet

文件，想使用 Python 按列快速高效地查询该文件。

例如，我可能在该

name

文件中有一个列

.parquet

，并且想要取回具有所选名称的第一行（或全部）行。

如何在 Polars API 或 FastParquet（以更快者为准）中查询这样的 parquet 文件？

我认为

pl.scan_parquet

可能会有帮助，但意识到它似乎并非如此，或者我只是不明白。最好，虽然不是必需的，但我们不必先将整个文件读入内存，以减少内存和 CPU 的使用。

感谢您的帮助。

Answer 1

说到快速镶木地板...

Fastparquet 是一个用于将 parquet 数据快速加载到 pandas 数据框中的库。你没有说你想在上面运行什么查询，但这将取决于 pandas （并且可能非常快）。 Fastparquet 确实允许在加载阶段使用许多选项，例如过滤值或选择列或选择数据类型，这些都会对加载时间产生显着影响，但会影响您随后可以执行的查询。在不了解后者的情况下，我们无法就前者提供建议（极地人士也会同意）。

如何使用 Polars Python API 查询镶木地板文件？

问题描述投票：0回答：1

1个回答

最新问题

如何使用 Polars Python API 查询镶木地板文件？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1