dask-distributed 相关问题

Dask.distributed是一个用于Python中的分布式计算的轻量级库。它将concurrent.futures和dask API扩展到中等大小的集群。

dask dataframe:合并两个数据帧,计算缺失值并写入csv只使用部分CPU(每个CPU占20%)

我想合并两个dask数据帧,用列中值计算缺失值并将合并的数据框导出到csv文件。我遇到了一个问题:我目前的代码无法利用所有8个CPU(约占20%...

回答 1 投票 0

为什么dask worker因“小”大小的任务导致MemoryError失败? [Dask.bag]

我在多个图像上运行管道。管道包括从文件系统读取图像,对每个图像进行处理,然后将图像保存到文件系统。然而,dask ......

回答 1 投票 1

“无法使用Client.map()来挑选未打开的文件”

我正在尝试使用dask.distributed基于来自多个CSV文件的内容同时更新Postgresql数据库。理想情况下,我们会在N个工人中分发CSV文件,每个工人都会...

回答 1 投票 1

如何对每个worker上的dask进行排队以允许顺序执行进程?

我需要工人一次处理一个任务,并在开始新任务之前完成当前流程。我无法做到:(1)每个工人最多只能运行一个任务,(2)制作......

回答 1 投票 1

Dask Distributed:并行读取和分析大量单个文件

问题如何使用Dask Distributed将文件目录并行化为单个DataFrames,然后使用自定义函数处理?假设n文件类似于100,000 ...

回答 1 投票 2

如何通过环境变量指定dask客户端

如何指示dask在代码外部使用分布式客户端作为调度程序,例如通过环境变量?动机是利用......的一个关键特征

回答 1 投票 0

在dask中为LocalCluster设置内存参数的正确方法

我尝试了下面的代码,来自dask.distributed import Client,LocalCluster worker_kwargs = {'memory_limit':'2G','memory_target_fraction':0.6,'memory_spill_fraction':0.7,'...

回答 1 投票 0

dask dataframe groupby导致一个分区内存问题

我正在将64个压缩的csv文件(可能是70-80 GB)读入一个dask数据帧,然后使用聚合运行groupby。这项工作从未完成,因为groupby创建了一个数据框...

回答 1 投票 1

单机上的并行dask代码问题

与dask并行比顺序编码慢。我有一个嵌套的for循环,我试图在本地集群上并行,但找不到正确的方法。我想并行内循环。 ...

回答 1 投票 1

什么是关闭Dask LocalCluster的“正确”方法?

我试图使用LocalCluster在我的笔记本电脑上使用dask-distributed,但我仍然没有找到一种方法让我的应用程序关闭而不会引发一些警告或触发一些奇怪的迭代...

回答 1 投票 6

当尝试使用Dask读取hdfs中的文件时,这个“pyarrow.lib.ArrowIOError:HDFS文件不存在”的解释是什么?

我正在使用Dask Distributed,我正在尝试从存储在HDFS中的CSV创建数据帧。我想与HDFS的连接是成功的,因为我能够打印数据帧列的名称。但是,我 ...

回答 2 投票 0

触发Dask工作者释放内存

我正在使用Dask分发一些函数的计算。我的总体布局如下所示:来自dask.distributed import Client,LocalCluster,as_completed cluster = LocalCluster(...

回答 1 投票 0

如何使自定义对象可用于传递给dask df.apply的函数(无法序列化)

所有这些代码都在pandas中运行,但运行单线程很慢。我有一个对象(它是一个布隆过滤器),创建起来很慢。我的dask代码看起来像:def has_match(row,...

回答 2 投票 2

jupyter lab在选项卡上打开iframe以监视dask调度程序

我正在使用分布式dask进行开发,这个包提供了一个非常有用的调试视图作为散景应用程序。我想在jupyterlab选项卡中将此应用程序放在笔记本旁边。我有 ...

回答 1 投票 3

在AWS上尝试Dask

我是一名正在探索在Amazon Web Services上使用Dask的科学家。我对Dask有一些经验,但没有使用AWS的经验。我有几个大的自定义任务图表要执行,还有几个同事......

回答 1 投票 1

Dask事件循环没有响应 - 工作未并行化

这是这个问题的后续行动。我现在正在尝试在AWS上的多个EC2节点上运行Dask。我可以在第一台机器上启动调度程序:然后我在其他几个机器上启动工作程序......

回答 1 投票 3

本地Dask工作程序无法连接到本地调度程序

在OSX 10.12.6上运行Dask 0.16.0时,我无法将本地dask-worker连接到本地dask-scheduler。我只是想遵循官方的Dask教程。重现步骤:步骤1:运行dask -...

回答 1 投票 0

dask distributed.utils - ERROR - state不是字典

我最近将dask-0.15.3升级到dask-0.16.0并将1.19.1分发到分发-1.20.2。升级后,所有dask作业都失败,异常:_pickle.UnpicklingError:state不是字典...

回答 1 投票 0

Dask:Dataframe groupBy上的nunique方法

我想知道在使用Dask进行groupBy聚合之后是否可以获得给定列中的唯一项目数。我在文档中看不到这样的内容。它是 ...

回答 2 投票 3

在一个dask包上依次迭代

我需要将一个非常大的dask.bag的元素提交给一个非线程安全的商店,即我需要像dbag中的x一样的东西:store.add(x)我不能使用计算,因为包大到适合...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.