dask-distributed 相关问题

Dask.distributed是一个用于Python中的分布式计算的轻量级库。它将concurrent.futures和dask API扩展到中等大小的集群。

distributed.worker - 警告 - 调度程序的心跳失败

我正在运行长时间运行的dask.delayed()作业(使用子进程来运行外部二进制文件来处理大文件),并且由于所有工作人员都失去了他们的调度程序通信而取消了Futures:...

回答 1 投票 0

Dask依赖图中的容错

我有一个小集群,我在其上部署一个dask图使用:from dask.distributed import Client ... client = Client(f'{scheduler_ip}:{scheduler_port}',set_as_default = False)client.get(workflow,.. 。

回答 1 投票 1

如何跨Dask分布式工作器共享大型只读对象

问题我试图通过apply()发送一个2GB的CPython只读对象(可以被pickle)来分配给分布式工作者。这最终会为进程/线程(14+ GB)消耗大量内存。是......

回答 1 投票 0

在许多镶木地板文件上重新进行数据帧重组

我有一个遍布许多工作节点的dask集群。我还有一个带有尽可能多的镶木地板文件的S3桶(现在500k文件,未来可能是三倍大小)。实木复合地板中的数据是......

回答 1 投票 0

如何从由制表符和换行符分隔的数据字符串创建dask数据帧

我的数据是以字符串形式分隔的\字符(用于列)和新行\ n字符用于行。 ID \ Product \ quantity \ n1 \ xx \ 2看起来像Dask.array.from_array()只支持一个数组...

回答 1 投票 0

如何使用分布式dask调度程序在worker上加载文件?

我手动设置了一个dask-scheduler和一个dask-worker。他们看到对方的日志。我的大文件位于同一台机器上而不是调度程序(我的jupyter笔记本也运行)。但......

回答 1 投票 1

无法使用aws-fargate ecs加载大文件

我试图按照本页提到的说明进行操作... https://towardsdatascience.com/serverless-distributed-data-pre-processing-using-dask-amazon-ecs-and-python-part-1-a6108c728cc4 2 ......

回答 1 投票 0

Dask.distributed集群管理

我正在设置Dask Python集群(30台机器,平均每台8个核心)。人们只使用部分CPU功率,因此dask-worker将以低优先级在后台运行。全部......

回答 1 投票 0

将SIGTERM发送到正在运行的任务,dask已分发

当我提交一个小的Tensorflow培训作为单个任务时,它会启动其他线程。当我按下Ctrl + C并引发KeyboardInterrupt时,我的任务被关闭但底层线程没有被清理......

回答 1 投票 0

Dask - Kubernetes - 教程示例

我刚刚使用Helm在Kubernetes集群上完成了Dask的设置,现在我想在jupyter笔记本上做基本的教程,我遇到了以下错误:我也试过......

回答 1 投票 2

Dask分布式:从HDFS读取.csv

我正在使用“带有Dask DataFrames的集群上的分布式Pandas”作为指导来测试Dask。在马修的例子中,他有一个20GB的文件和64个工作人员(8个物理节点)。在我的情况下,我有...

回答 2 投票 3

在Dask.distributed中使用client.scatter(df)时引发异常

我正在使用stable / dask存储库中的Helm Chart与Kasknetes上的Dask一起工作。当使用分布式客户端,并调用client.scatter(ddf)时,我得到了一个Exception,如下所示:...

回答 1 投票 0

如何解决内核错误或内存错误?

我有和长度为50000的字符串数组。我正在尝试创建一个尺寸为50000 * 500000的相似性矩阵。为了使它我尝试使用以下方法形成元组列表...

回答 1 投票 -2

如何将多个参数传递给dask.distributed.Client()。map?

import dask.distributed def f(x,y):return x,y client = dask.distributed.Client()client.map(f,[(1,2),(2,3)])不起作用。 [

回答 1 投票 0

DASK上的进程池

我是DASK的新手。我可以使用client.map(funct_name,iterator)提交10个任务,其中迭代器是一个包含10个元素的列表。现在,我想提交下一个任务,让我们说第11个任务......

回答 2 投票 0

config.yaml中dask分布式pod,worker,CPU和RAM之间的关系

使用Helm设置dask集群时,config.yaml文件中有一组变量用于自定义工作者数量,我希望对术语提供一些帮助。例如, ...

回答 1 投票 0

分配如何在dask中运行?

我有一个数据框:导入numpy作为np import pandas as pd import dask.dataframe as dd a = {'b':['cat','bat','cat','cat','bat','No Data ','bat','No Data'],'c':['str1','str2','str3','str4','...

回答 1 投票 2

演员和dask-workers

client = Client('127.0.0.1:8786',direct_to_workers=True)future1 = client.submit(Counter,workers ='ninja',actor = True)counter1 = future1.result()print(counter1)一切都很好.. 。

回答 1 投票 2

Dask - 如何使用apply将Series连接到DataFrame?

如何从Dask系列上应用的函数返回多个值?我试图从dask.Series.apply的每次迭代返回一个系列,并将最终结果作为dask.DataFrame。 ......

回答 1 投票 1

在当前进程完成其自举阶段之前,已尝试启动新进程

我是dask的新手,我发现有一个模块很容易实现并行化。我正在开发一个项目,我可以在一台机器上并行化一个循环,你可以看到......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.