大多数基准测试都将 dask 和 cuDF 隔离开来,但我可以将它们一起使用。带有 cuDF 的 Dask 不是比 Polars 更快吗?!
此外,Polars 仅在数据适合内存时才运行,但 dask 的情况并非如此。那么为什么会有 https://h2oai.github.io/db-benchmark/ dask 内存不足指示?
不同的数据框架库有其优点和缺点。例如,请参阅这篇博文了解不同库的比较,尤其是。从缩放
pandas
的角度来看。
Dask Dataframe 对于如何最好地在多个任务之间分配工作负载有一些默认假设。如果这些假设对于特定用例无效,那么与内存相关的错误并不罕见。
您在笔记本电脑或 PC 上看到 CUDA 设备的频率有多高,当比较 dask CPU(苹果)和 Polars CPU(苹果)时,CUdf 是完全不同的橙色,每个人都没有拥有运行 CUDA 的 GPU,所以如果您想要一个每个人都可以在其数据工程工作负载中执行或使用的通用基准,该基准非常必须正确。