Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
我有一个Dask Dataframe,我想为列表列表计算偏度,如果这个偏差超过某个阈值,我会使用日志转换来纠正它。我想知道是否......
我有一个4D xarray数据集。我想在特定维度(这里是时间)上对两个变量进行线性回归,并将回归参数保存在3D数组中(其余的...
如何使用dask将SVC分发给不同的工作人员(在其他计算机上)
我在我的PC上运行了一个调度程序,我想在不同的工作计算机上训练10个SVC实例。我摆弄,但找不到解决方案
我目前正在使用一个小型数据集(大约900万行)。不幸的是,大多数条目都是字符串,即使强制使用类别,框架也会在内存中占用几GB。什么 ...
我需要从一组dask系列中创建一个dask DataFrame,类似于从列表构建pandas DataFrame pd.DataFrame({'l1':list1,'l2':list2})我没有在API中看到任何内容。 ...
这是这个问题的后续行动。我现在正在尝试在AWS上的多个EC2节点上运行Dask。我可以在第一台机器上启动调度程序:然后我在其他几个机器上启动工作程序......
我有以下代码试图计算一个dask系列的平方根my_dask_df ['a_column'] = numpy.sqrt(my_dask_df ['a_column'])我得到的是以下异常:ValueError:并非所有...
在OSX 10.12.6上运行Dask 0.16.0时,我无法将本地dask-worker连接到本地dask-scheduler。我只是想遵循官方的Dask教程。重现步骤:步骤1:运行dask -...
我想基于一组索引键获取Dask数据帧的一部分行。 (具体来说,我想找到其索引不在ddf2索引中的ddf1行。)cache.drop([overlap_list])...
我们有一个dask DataFrame如下:ID listNum 1 [a,b] 2 [a,b,c] 3 [d,e,f,g]需要转换为ID listNum 1 [a,b] 2 [ a,b] 2 [b,c] 2 [a,c] 3 [d,e] 3 [d,f] 3 [d,...
dask distributed.utils - ERROR - state不是字典
我最近将dask-0.15.3升级到dask-0.16.0并将1.19.1分发到分发-1.20.2。升级后,所有dask作业都失败,异常:_pickle.UnpicklingError:state不是字典...
Dask:Dataframe groupBy上的nunique方法
我想知道在使用Dask进行groupBy聚合之后是否可以获得给定列中的唯一项目数。我在文档中看不到这样的内容。它是 ...
使用带有cythonized类的dask。酸洗对象方法时出错
我想用以下类对python模块进行cython化:class C:def __init __(self,x):self.x = x @staticmethod def f(k):return k def g(self,k):.. 。
我需要将一个非常大的dask.bag的元素提交给一个非线程安全的商店,即我需要像dbag中的x一样的东西:store.add(x)我不能使用计算,因为包大到适合...
我创建了一个聚合对象来模拟pandas的第一个操作,并且它与dask数据帧一起正常工作,但是当在延迟函数中使用时,它会给出一个pandas错误,说'聚合'...
如果我有一个已编入索引的Dask数据帧,其中>>> A.divisions(无,无)>>> A.npartitions 1,我想设置分区,到目前为止我正在做A.reset_index()。set_index(“ ...
使用dask-distributed如何从队列提供的长时间运行的任务中生成未来
我正在使用一个磁盘分布式长时间运行的任务,就像这个例子http://matthewrocklin.com/blog/work/2017/02/11/dask-tensorflow一样,一个长时间运行的工作任务从a获取其输入。 ..
根据一般的numpy操作“逐步化”逐点函数是否可行?案例+部分解决方案:例如,请看这里:https://github.com/SciTools/iris/pull/2964 ...
我想知道如何优化这种转换,我需要计算一周中的行数为125百万行,我有一台4 GB内存的计算机,我只是尝试这个:df_train ['date']。dt .. ..