dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

如何将函数并行应用于Dask数据框的多个列?

我有一个Dask Dataframe,我想为列表列表计算偏度,如果这个偏差超过某个阈值,我会使用日志转换来纠正它。我想知道是否......

回答 1 投票 3

使用xarray,如何在多维数据集上并行化1D操作?

我有一个4D xarray数据集。我想在特定维度(这里是时间)上对两个变量进行线性回归,并将回归参数保存在3D数组中(其余的...

回答 1 投票 1

如何使用dask将SVC分发给不同的工作人员(在其他计算机上)

我在我的PC上运行了一个调度程序,我想在不同的工作计算机上训练10个SVC实例。我摆弄,但找不到解决方案

回答 1 投票 -1

pandas DataFrame中行的高效成对比较

我目前正在使用一个小型数据集(大约900万行)。不幸的是,大多数条目都是字符串,即使强制使用类别,框架也会在内存中占用几GB。什么 ...

回答 2 投票 1

从dask系列列表中创建dask DataFrame

我需要从一组dask系列中创建一个dask DataFrame,类似于从列表构建pandas DataFrame pd.DataFrame({'l1':list1,'l2':list2})我没有在API中看到任何内容。 ...

回答 1 投票 3

Dask事件循环没有响应 - 工作未并行化

这是这个问题的后续行动。我现在正在尝试在AWS上的多个EC2节点上运行Dask。我可以在第一台机器上启动调度程序:然后我在其他几个机器上启动工作程序......

回答 1 投票 3

在dask系列的方根

我有以下代码试图计算一个dask系列的平方根my_dask_df ['a_column'] = numpy.sqrt(my_dask_df ['a_column'])我得到的是以下异常:ValueError:并非所有...

回答 1 投票 1

本地Dask工作程序无法连接到本地调度程序

在OSX 10.12.6上运行Dask 0.16.0时,我无法将本地dask-worker连接到本地dask-scheduler。我只是想遵循官方的Dask教程。重现步骤:步骤1:运行dask -...

回答 1 投票 0

Dask:按索引从Dataframe中的子集(或丢弃)行

我想基于一组索引键获取Dask数据帧的一部分行。 (具体来说,我想找到其索引不在ddf2索引中的ddf1行。)cache.drop([overlap_list])...

回答 2 投票 3

从dask生成列表 - 获取值错误

我们有一个dask DataFrame如下:ID listNum 1 [a,b] 2 [a,b,c] 3 [d,e,f,g]需要转换为ID listNum 1 [a,b] 2 [ a,b] 2 [b,c] 2 [a,c] 3 [d,e] 3 [d,f] 3 [d,...

回答 1 投票 1

dask distributed.utils - ERROR - state不是字典

我最近将dask-0.15.3升级到dask-0.16.0并将1.19.1分发到分发-1.20.2。升级后,所有dask作业都失败,异常:_pickle.UnpicklingError:state不是字典...

回答 1 投票 0

Dask:Dataframe groupBy上的nunique方法

我想知道在使用Dask进行groupBy聚合之后是否可以获得给定列中的唯一项目数。我在文档中看不到这样的内容。它是 ...

回答 2 投票 3

使用带有cythonized类的dask。酸洗对象方法时出错

我想用以下类对python模块进行cython化:class C:def __init __(self,x):self.x = x @staticmethod def f(k):return k def g(self,k):.. 。

回答 1 投票 0

在一个dask包上依次迭代

我需要将一个非常大的dask.bag的元素提交给一个非线程安全的商店,即我需要像dbag中的x一样的东西:store.add(x)我不能使用计算,因为包大到适合...

回答 1 投票 1

Dask中延迟函数和正常函数之间的区别

我创建了一个聚合对象来模拟pandas的第一个操作,并且它与dask数据帧一起正常工作,但是当在延迟函数中使用时,它会给出一个pandas错误,说'聚合'...

回答 1 投票 2

在Dask数据帧中的现有索引上设置分区

如果我有一个已编入索引的Dask数据帧,其中>>> A.divisions(无,无)>>> A.npartitions 1,我想设置分区,到目前为止我正在做A.reset_index()。set_index(“ ...

回答 1 投票 2

使用dask-distributed如何从队列提供的长时间运行的任务中生成未来

我正在使用一个磁盘分布式长时间运行的任务,就像这个例子http://matthewrocklin.com/blog/work/2017/02/11/dask-tensorflow一样,一个长时间运行的工作任务从a获取其输入。 ..

回答 1 投票 3

检查提交计算的Dask图

在保持对象的同时,可以在任何阶段查看Dask图。虽然在Dask对象上调用一次.compute(),但是有机会对...进行额外的优化。

回答 1 投票 2

Dask.array转换逐点数组操作

根据一般的numpy操作“逐步化”逐点函数是否可行?案例+部分解决方案:例如,请看这里:https://github.com/SciTools/iris/pull/2964 ...

回答 1 投票 0

Dask日期时间优化

我想知道如何优化这种转换,我需要计算一周中的行数为125百万行,我有一台4 GB内存的计算机,我只是尝试这个:df_train ['date']。dt .. ..

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.