dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

任务委托人的任务艰辛

我运行的计算图具有较长的功能(几个小时)和很大的结果(数百兆)。这种类型的负载可能不常见。我尝试对4个工人运行此图。我看到了...

回答 1 投票 0

敏捷工作人员的全局缓存字典

假设我有一个延迟的函数,可以执行某些任务,但是它需要一个字典来存储中间的键/值对,这些键/值对在每个dask worker中都可以读取和修改。可以延迟或其他...

回答 1 投票 0

使用Dask将大于内存的数据帧缓存到本地磁盘

我在S3中有一堆文件,这些文件包含一个大于内存的数据帧。当前,我使用Dask将文件读入数据帧,使用较小的数据集执行内部联接(这将改变...

回答 1 投票 1

向快速数据帧添加新列会引发ValueError:值的长度与索引的长度不匹配

我知道此追溯ValueError:值的长度与索引的长度不匹配是由于在ddf.assign(...

回答 1 投票 0

Dask字典到延迟的对象适配器

我一直在搜索,但是没有找到解决方案。我一直在研究Dask词典,但团队正在研究延迟的对象。我需要将dsk {}转换为上一步延迟的对象。 ...

回答 1 投票 0

dask.distributed.Client为什么在提供了已使用的已定义LocalCluster参数时引发“ TypeError:无法腌制'_thread.RLock'对象?”

通过使用dask.distributed.Client的空参数构造函数,我可以隐式创建dask.distributed.LocalCluster。但是,当我尝试使用...

回答 1 投票 0

使用Dask-OOM的大型csv到镶木地板

我有7个csv文件,每个文件8 GB,需要转换为镶木地板。内存使用量达到100 GB,我不得不将其杀死。我也尝试了分布式Dask。内存限制为12 GB,但没有输出...

回答 1 投票 0

让Pandas DataFrame apply()使用所有内核吗?

不幸的是,截至2017年8月,Pandas DataFame.apply()仍仅限于使用单核,这意味着当您运行df时,多核计算机将浪费其大部分计算时间。

回答 5 投票 88

延迟延迟错误-AttributeError:'_ thread._local'对象没有属性'value'

我一直在绞尽脑汁想弄清楚为什么我无法在Dask上执行此可并行化的功能。本质上,我有一个在keras模型中加载的函数(我正在使用mlflow存储该模型)...

回答 1 投票 1

Python Dask从行删除

我正在尝试编写脚本以使用dask清理来自csvs的信息。我有一个从csv创建的daf df,如下所示:客户订单hashed_customer名字姓氏电子邮件...

回答 1 投票 1


导致Dask期货陷入“待定”状态的原因?

我基于dask-docker Dockerfile创建了自己的略微修改的Dockerfile,该Dockerfile安装了adlfs并将我的自定义库之一复制到容器中,以使其对所有人可用...

回答 1 投票 0

Jupyter Notebook中的DASK SSH群集

更新我已将SSH密钥复制到我的所有计算机,并且它们能够在不使用密码的情况下进行通信,但是我仍然需要指定username @ hostname而不只是主机名。我...

回答 2 投票 0

Dask多个客户端

是否可能有多个客户端?例如,我是否可以让多个线程同时每个线程运行一个客户端,以便当一个线程阻塞时,其他线程可以继续运行?在这种情况下,...

回答 1 投票 1

导入DASK时出错:模块'dask.array'没有属性'逐块'

我正在尝试使用DASK进行快速计算,因为逻辑回归在系统上运行17小时后中止。我的数据集大约有一百万行。我首先运行以下命令:将dask.array导入为da ...

回答 1 投票 0

如何读取大型CSV文件,添加多维数据并将每小时转换为每天?

我有一个大型CSV文件,它们以5毫米格网的小时分辨率表示美国的天气数据。每天都保存数据,因此我将它们串联在一起以获取年度文件。最终的...

回答 1 投票 0

为什么快扔IndexError:当我使用apply_along_axis时,索引1超出了大小为1的轴0的边界?

我尝试将dask.array.apply_along_axis用于2D数组。但是,我的数组是一个dask数组,它总是引发如下异常:Traceback(最近一次调用为last):文件“ D:/ test / ...

回答 1 投票 0

是否可以使用dask在镶木地板文件上运行SQL语句?

Spark具有允许用户在Spark数据帧上运行SQL语句的功能。达斯克呢?如果现在不可用,是否正在考虑?

回答 1 投票 0

读取HDF5作为Dask Dataframe时出错,为什么?

1。我的问题是,尝试使用Dask读取我的HDF5文件时出现下一个错误,我不知道为什么>>> dd.read_hdf(“ test.h5”,key =“ / RECORDS / STATES”)追溯(最近一次调用)最后):...

回答 1 投票 0

Dask如何决定是否重新运行任务

我对Dask并不陌生,他试图构建一个系统来执行具有依赖关系的计算图。但是,有些任务虽然有一个...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.