dask-distributed 相关问题

Dask.distributed是一个用于Python中的分布式计算的轻量级库。它将concurrent.futures和dask API扩展到中等大小的集群。

如何持久化加载了 dask.dataframe.from_delayed 的 dask 数据帧

我有一个以自定义格式存储的大型分片数据集,这将从 dask.dataframe.from_delayed 中受益匪浅 但是,当我尝试保留生成的数据帧时,我看到了奇怪的行为:...

回答 1 投票 0

捕获任何错误或异常时关闭 dask 客户端和集群

我正在编写一个python函数来使用dask进行数据处理。如果出现任何错误或异常,我想自动关闭 dask 集群和客户端。所以我使用 with ... as: 语句。

回答 1 投票 0

Dask from_delayed() 导致内存使用率过高

我按照(https://docs.dask.org/en/stable/delayed-collections.html)的说明为 Dask DataFrame 创建自定义数据加载器,基本上是这样的: 将 dask.dataframe 导入为...

回答 1 投票 0

我无法在 AWS EMR 上运行 dask 纱线集群

我想使用 YarnCluster 在 EMR 上运行 dask。 我使用了下面的引导脚本,但我已经在 SSH 控制台中运行了这些指令。 #!/bin/bash HELP="用法:bootstrap-dask [选项] AWS EMR 示例

回答 1 投票 0

Dask 分布式 - 由工作方法共享的有状态全局参数

我正在使用 Dask 设置集群。现在我正在本地主机上设置调度程序和工作人员。 集群 = SSHCluster(["localhost", "localhost"],

回答 1 投票 0

集群上数据的Dask和持久化

我正在开发一个使用历史数据和传入数据进行分析的项目。我想了解如何管理更新 dask 上的传入数据,而不必分派所有

回答 1 投票 0

dask 持久行为不一致

如果我注释掉这一行,我发现 dask 的奇怪行为仍然存在 # client = Client(memory_limit='20GB',n_workers=1) # 连接到分布式集群并覆盖默认值 并执行

回答 1 投票 0

具有多个参数的 Dask 映射方法

我想将 Client.map 方法应用于使用多个参数的函数,就像多处理的 Pool.starmap 方法一样。这是一个例子 从 contextlib 导入 contextmanager 从...

回答 1 投票 0

Prefect - 无法将 Dask 数据帧保留到 Dask 客户端

我是一名相当新的 Prefect,正在努力在 Prefect Flow 中使用 Dask 持久性。我不确定这是代码问题还是 Prefect 中的限制。 我做了以下简单的例子......

回答 1 投票 0

分区 dask 数据帧的元素平均值

我有一个由多个 2d DataFrame 组成的 dask 数据框(每个分区都是一个 2d DataFrame)。我想要最有效的方法来找到生成单个 2d DataFra 的所有分区的平均值...

回答 1 投票 0

我需要在dask-distributed中进行简单的fifo调度

我有多个客户端作为服务器、一个调度程序和一个具有 3 个线程的工作线程。 我的客户端是异步的,当我收到请求时,他们使用分布式客户端。 调用看起来像这样:

回答 1 投票 0

将 Dask Dataframe 相乘会产生 NaN 值

我正在使用 dask.distrinulated,并且我有两个 dask DataFrame A 和 B。两者都有相同数量的分区,每个分区都是一个 2D DataFrame,包含相同的列和行,并且具有 f...

回答 1 投票 0

任务扩展问题:如果增加工人数量,打开的文件太多

我从命令行运行 SSH 集群。每个节点有 32 个 CPU。 dask ssh --hostfile $PBS_NODEFILE --nworkers 32 --nthreads 1 & 代码: 导入任务 从 dask.distributed 导入客户端 # 项是

回答 1 投票 0

使用 JupyterHub 身份验证连接到 dask 网关服务器失败

我正在使用 DaskGateway 服务器使用 DaskHub 和 JupyterHub 进行多用户设置,但我与 dask-gateway 服务器的连接失败并出现错误: 错误 ClientConnectorError:无法连接到

回答 0 投票 0

尝试将 Dask on Kubernetes 与分布式工作人员一起使用时出错

我正在尝试在 Kubernetes/Azure 上部署一个 dask 应用程序。我有一个 Flask 应用程序服务器,它是 Dask 调度程序/工作程序的客户端。 我按照此处所述安装了 Dask 运算符: 哈...

回答 0 投票 0

查看 Dask 数据框是如何在 worker 之间分布的

也许是因为我比较新,但我似乎无法找到这个问题的答案。 在调用 DataFrame.persist() 之后,是否有一种简单的方法可以查看每个

回答 0 投票 0

您将如何使用 Dask 在 Dask.Geodataframe 中递归查找相邻的多边形?

我是 Dask 的新手。 我一直试图让它完成以下任务: 我有两个地理数据框和一组: # Main chunk 和 combined chunk 是镶嵌单元格的多边形列表 main_chunk = ...

回答 1 投票 0

我写了一个 lambda 函数用于 Pandas 的聚合函数。我怎样才能在 Dask 的聚合函数中实现这个 lambda 函数?

我编写了一个自定义 lambda 函数,需要在数据帧中的 groupby 操作之后应用。 lambda 函数将特定组中的所有**唯一**字符串与

回答 1 投票 0

Dask Distributed:将 Dask 分布式 worker 限制为 1 个 CPU

我的系统有 4 个 CPU,16 GB 内存。我的目标是部署 dask 分布式工作人员,每个工作人员仅使用 1 个 CPU 来运行分配给他们的代码。 我正在使用 ...

回答 3 投票 0

跨 dask 数据帧分区的方法

我正在进入 dask 并想利用 dask.distribution 库来并行计算。考虑以下示例数据框: 将熊猫导入为 pd 将 numpy 导入为 np 导入 dask.

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.