dask-distributed 相关问题

Dask.distributed是一个用于Python中的分布式计算的轻量级库。它将concurrent.futures和dask API扩展到中等大小的集群。

如何在执行 Dask 任务之间保留一些 Python 对象状态?

我有一个 Dask 工作集群,我想用它们来使用复杂模型并行化预测操作。模型文件很大并且需要时间来加载,所以我使用 client.run 来获取所有

回答 1 投票 0

如何将日期时间字符串转换为 dask cudf 中的时间戳,然后按此列对数据帧进行排序

我想将日期时间字符串转换为 dask cudf 中的时间戳,然后按此列对数据帧进行排序。 例子: 将 dask_cudf 导入为 ddf 将 pandas 导入为 pd # 示例数据(替换为您的

回答 1 投票 0

Dask 如何管理文件描述符

Dask 如何管理文件描述符? 例如,从 hdf5 文件创建 dask.array 时。当数组大到足以进行分块时。 创建的任务是否继承创建的文件描述符...

回答 1 投票 0

读取文件csv并与多个worker、dask.distributed、dask.dataframe进行聚合

我有服务器 IP:192.168.33.10 启动 schudeler dask 调度程序 --host 0.0.0.0 这是该服务器中的主机,我有文件“/var/shared/job_skills.csv”,工作人员是 192.168.33.11,...

回答 1 投票 0

在高故障率集群上使用Dask进行分布式链式计算?

我正在使用 Dask Bag 在特殊集群上运行一些简单的映射缩减计算: 导入 dask.bag 作为包 summed_image = bag.from_sequence(my_ids).map(gen_image_from_ids).reduction(sum, sum).comp...

回答 2 投票 0

dask 调度程序的连接问题

我已经使用 GKE 设置了一个 kubernetes 集群并安装了 dask-kubernetes-operator。 当我尝试像这样启动集群时 集群:KubeCluster = KubeCluster(custom_cluster_spec="集群....

回答 1 投票 0

为什么dask显示的大小比数据(numpy数组)的实际大小小?

Dask 显示的大小比 numpy 数组的实际大小稍小。下面是一个大小正好为 32 Mb 的 numpy 数组的示例: 将 dask 导入为 da 导入 dask.array 将 numpy 导入为 np 形状 = (1...

回答 1 投票 0

Dask 分布式 - 如何为每个工作线程运行一个任务,使该任务在工作线程可用的所有核心上运行?

我对使用分布式Python库非常陌生。我有 4 个工作线程,并且我已经为每个工作线程使用 14 个核心(在 16 个可用核心中)成功启动了一些并行运行,结果是 4*14=56 ...

回答 2 投票 0

无法在jupyter上dd.read_sql,内核崩溃

我来这里是因为我不明白我的问题。 我创建了一个 dockerfile + compose,它创建了 1 个 dask 调度程序和 2 个工作线程: docker-compose.yaml: 版本:'3.8' 服务: dask 调度程序...

回答 1 投票 0

AttributeError:导入 Dask 时模块“pandas.core.strings”没有属性“StringMethods”

即使 import dask 有效,我在尝试导入 dask.dataframe 接口时收到问题标题中所述的错误。 我当前的 dask 版本是 2022.7.0。可能是什么问题?

回答 2 投票 0

登录Dask

我正在使用 SLURM 集群,并且希望能够在我的任务中添加自定义日志,这些日志在检查特定工作人员时应显示在仪表板上的日志中。 或者我会...

回答 1 投票 0

如果包含的 dask.distributed 任务失败,为什么完美任务不会失败?

我正在使用 DaskTaskRunner 使用 Prefect 运行工作流程,它创建并保存 dask.distibuted.LocalCluster 实例。 在完美的任务中,我使用 dask_ml.RandomSearchCV 并拟合它,这......

回答 1 投票 0

如何在Databricks上使用Dask

我想在 Databricks 上使用 Dask。这应该是可能的(我不明白为什么不可以)。如果我导入它,会发生以下两种情况之一,要么我收到导入错误,但当我安装分布式来解决这个问题时

回答 3 投票 0

为什么dask.dataframe to_csv之后有这么多数据丢失

我是Dask分发的新手,现在我正在做一个简单的测试来学习它,并得到一个非常奇怪的情况,这是我的代码: 将 numpy 导入为 np 将 pandas 导入为 pd 将 dask.dataframe 导入为 dd 数据_...

回答 1 投票 0

无法创建DaskDMatrix

我正在尝试按照文档使用 dask 训练 xgboost 模型。我的问题是我在必须创建 DaskDMatrix 的步骤中被阻止。无论我如何尝试,我都会收到错误...

回答 1 投票 0

为什么对 python 模块变量的修改没有传播到新的并行进程?

我有一个我想要执行的令人尴尬的并行任务列表。目前,我正在将这些任务的配置作为模块导入。 示例单行配置.py: result_folder = "aF...

回答 1 投票 0

dask 导入错误,数据框/客户端 - 版本与 pandas 冲突?

并非所有版本的 dask.dataframe 和 pandas 都兼容。这已经在这个问题中得到解决 我尝试了几种组合,但与更新的 dask 版本组合,...

回答 1 投票 0

如何持久化加载了 dask.dataframe.from_delayed 的 dask 数据帧

我有一个以自定义格式存储的大型分片数据集,这将从 dask.dataframe.from_delayed 中受益匪浅 但是,当我尝试保留生成的数据帧时,我看到了奇怪的行为:...

回答 1 投票 0

捕获任何错误或异常时关闭 dask 客户端和集群

我正在编写一个python函数来使用dask进行数据处理。如果出现任何错误或异常,我想自动关闭 dask 集群和客户端。所以我使用 with ... as: 语句。

回答 1 投票 0

Dask from_delayed() 导致内存使用率过高

我按照(https://docs.dask.org/en/stable/delayed-collections.html)的说明为 Dask DataFrame 创建自定义数据加载器,基本上是这样的: 将 dask.dataframe 导入为...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.