我正在将.tiff文件存储在Google云存储中。我想使用分布式Dask群集installed with Helm on Kubernetes.操作它们。
基于dask-image repo,有关remote data services的Dask文档以及storage_options的使用,现在看起来像是从.zarr,.tdb,.orc,.txt,.parquet和。支持csv格式。那是对的吗?如果是这样,是否有建议的解决方法来访问远程.tiff文件?
有很多方法可以做到这一点。我可能会使用skimage.io.imread
之类的库以及dask.delayed
来并行读取TIFF文件,然后将它们排列成Dask数组
我鼓励您看一下this blogpost on loading image data with Dask,它执行类似的操作。
我相信skimage.io.imread
函数将很高兴从URL读取数据,尽管它可能不知道如何与GCS进行互操作。如果GCS上的数据也可以通过公共URL获得(如果您可以访问GCS存储桶,则很容易做到),那将很容易。否则,您可以使用gcsfs库从文件中获取字节,然后将这些字节提供给某些Python图像读取器。