我需要将所有无限制(目前已增加,1TB)数据导出到单个 NetCDF4 文件。
完整的 ETL 包括:
最后一部分(写入单个 NetCDF 文件)是我关注的重点。
我的需求:
2018年好像有相关讨论: https://github.com/dask/distributed/issues/2163
问题
截至 2024 年,与简单(单线程)Python 相比,使用 Dask 将数据写入单个 NetCDF 文件是否有任何好处(提高并行性?逐块写入,从而减少内存消耗?)使用标准 NetCDF 库的顺序应用程序?
https:/ /docs.dask.org/en/latest/ generated/dask.array.to_hdf5.html
在无法使用 dask.array 的情况下(也许您将在另一个会话中返回更多数据),您仍然可以以追加模式打开文件/变量,并使用 dask.delayed 写入每个块。请注意,数组的内部分块以及压缩等其他选项将在初始创建时固定。