我有一个大约70GB的数据帧,并且3列不适合内存。我的机器是8 CORE Xeon,具有64GB的Ram和本地的Dask群集。
我必须将三列中的每一列都加入另一个更大的数据框。
The documentation建议分区大小为100MB。但是,鉴于这种数据大小,加入700个分区似乎比例如加入70个分区(1000 MB)要多得多。
是否有理由将其保持在700 x 100MB的分区上?如果不是,应该在此处使用哪个分区大小?这还取决于我使用的工人数量吗?
我有一个大约70GB的数据帧,并且3列不适合内存。我的机器是8 CORE Xeon,具有64GB的Ram和本地的Dask Cluster。我必须带走3列中的每列,然后...
最佳分区大小取决于许多不同的因素,包括可用的RAM,正在使用的线程数,数据集的大小以及在许多情况下您正在执行的计算。