用于70GB数据连接操作的黄昏数据帧最佳分区大小

问题描述 投票:1回答:1

我有一个大约70GB的数据帧,并且3列不适合内存。我的机器是8 CORE Xeon,具有64GB的Ram和本地的Dask群集。

我必须将三列中的每一列都加入另一个更大的数据框。

The documentation建议分区大小为100MB。但是,鉴于这种数据大小,加入700个分区似乎比例如加入70个分区(1000 MB)要多得多。

是否有理由将其保持在700 x 100MB的分区上?如果不是,应该在此处使用哪个分区大小?这还取决于我使用的工人数量吗?

  • 1 x 50GB工作人员
  • 2 x 25GB工作人员
  • 3 x 17GB工作人员

我有一个大约70GB的数据帧,并且3列不适合内存。我的机器是8 CORE Xeon,具有64GB的Ram和本地的Dask Cluster。我必须带走3列中的每列,然后...

dataframe join dask dask-distributed
1个回答
0
投票

最佳分区大小取决于许多不同的因素,包括可用的RAM,正在使用的线程数,数据集的大小以及在许多情况下您正在执行的计算。

© www.soinside.com 2019 - 2024. All rights reserved.