Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
为什么快扔IndexError:当我使用apply_along_axis时,索引1超出了大小为1的轴0的边界?
我尝试将dask.array.apply_along_axis用于2D数组。但是,我的数组是一个dask数组,它总是引发如下异常:Traceback(最近一次调用为last):文件“ D:/ test / ...
读取HDF5作为Dask Dataframe时出错,为什么?
1。我的问题是,尝试使用Dask读取我的HDF5文件时出现下一个错误,我不知道为什么>>> dd.read_hdf(“ test.h5”,key =“ / RECORDS / STATES”)追溯(最近一次调用)最后):...
我对Dask并不陌生,他试图构建一个系统来执行具有依赖关系的计算图。但是,有些任务虽然有一个...
我有一个大型(> 100 GB)的xarray数据集,用于保存天气预报数据(维度时间,预报步长,纬度,经度,并且在时间,纬度和经度维度上有较大的块),并且需要...
我有一个在Dask的Kubernetes集群上运行的进程,该进程包含两个map-reduce阶段,但是跨节点的两个map都可能向每个worker下载大量的大文件。在...
因此,我遵循了按问题列分组的dask数据框。 |问题物品|最小尺寸|最大尺寸|费用| | -------- | ------ | --------------- | -------------- |- ---- | | A | ...
我正在使用Dask-ML运行一些代码,这些代码在训练期间会占用大量RAM内存。训练数据集本身并不大,但是它是在训练期间使用了相当多的RAM内存。我保持...
[使用Helm,我创建了一个Dask集群。名称准备状态重新开始年龄dask01-jupyter-aaa-aaaa 1/1正在运行0 3d19h dask01-scheduler-bbb -...
我编写了一个程序,但很快又延迟了,现在我想在云中的多台计算机上运行它。但是有一件事我不理解-冒险如何在...
关于dask.distributed的问题的类似物可以在这里找到:如何将任务分配给Dask.Distributed中的特定工作者,但是相同的技术似乎不适用于纱线簇...
理论上,当多个容器分配在一个节点上时,由于这些容器位于同一台计算机上,因此似乎可以使它们共享磁盘内存?更具体地说,我可以...
我想创建一个类似于计数器的类,但是具有一些额外的功能。这是一个简化的版本:从集合中导入Counter导入pickle类DerivedCounter(Counter):def ...
我对Dask印象深刻,我正在尝试确定它是否是解决我的问题的正确工具。我正在建立一个用于交互式数据探索的项目,用户可以在其中交互式地更改...
我正在尝试从SQL连接加载Dask数据框。根据read_sql_table文档,有必要传入index_col。如果没有...
dask数据框是否有任何有效的方法来按一列分组,然后加入该列?
我有一个dask.DataFrame,如下所示:uid | name 1 | A 2 | A 3 | B 4 | CI要获得以下结果:uid | name 1 | A | A_NEW_ID 2 | A | A_NEW_ID 3 | B | B_NEW_ID 4 | C | C_NEW_ID我尝试通过以下方式获取结果...
[具有500个,并且持续增长的DataFrame,我想对(每个DataFrame独立的)数据提交操作。我的主要问题是:可以保留连续提交的数据,...