dask-distributed 相关问题

Dask.distributed是一个用于Python中的分布式计算的轻量级库。它将concurrent.futures和dask API扩展到中等大小的集群。

Pod错误-快速镶木失败的建筑轮子

我正在链接:https://kubernetes.dask.org/en/latest/,以在Kubernetes集群上运行dask数组。步骤:在3个节点(1个主节点和2个工作节点)上安装Kubernetes。安装miniconda3 pip安装...

回答 1 投票 0

分布式分布式计算在for循环的集群中不起作用

我无法使用分布式集群来处理此块。从dask导入熊猫作为pd从dd导入数据帧作为d导入daf df = pd.DataFrame({'reid_encod':[[1,2,3,4,5,6,7,8,9,10]]}).. 。

回答 1 投票 0

分布式分布式:提高小数据帧的速度

我正在尝试使用dask将Web服务器上的工作分担给交互式数据分析应用程序的工作人员。简单的groupby()和mean()在dask上的速度比in -...

回答 1 投票 0

用于70GB数据连接操作的黄昏数据帧最佳分区大小

我有一个大约70GB的数据帧,并且3列不适合内存。我的机器是8 CORE Xeon,具有64GB的Ram和本地的Dask Cluster。我必须带走3列中的每列,然后...

回答 1 投票 1

Dask-尝试读取hdfs数据时出现错误ArrowIOError:HDFS文件不存在

我尝试从存储在hdfs中的csv创建数据帧。连接成功。但是,当尝试获取len函数的输出时,会出错。代码:从dask_yarn从dask导入YarnCluster。...

回答 1 投票 0

Dask Client检测到本地默认集群已在运行中

从dask.distributed import客户端Client()客户端(do_not_spawn_new_if_default_address_in_use = True)#不应该产生新的默认集群吗?

回答 2 投票 0

Dask Kubernetes工作者窗格提供错误状态

我正在链接:https://kubernetes.dask.org/en/latest/,以在Kubernetes集群上运行dask数组。在运行示例代码时,工作程序窗格将显示错误状态,如下所示:步骤:...

回答 1 投票 1

同时计算多个任务并同时执行多个任务Dask

我有2个具有df的工作人员(A和B),我正尝试通过以下任务来计算多个描述性统计信息:任务1:df.isnull()。sum()任务2:df ['column' ] .value_counts()我想分配...

回答 1 投票 0

dask:大块的xarray数据集未正确共享ammgst worker

情况下,我有一个很大的NetCDF文件,其中包含一些Earth System模型数据。我通过xarray访问文件和数据,并希望通过分布在多个worker上的dask处理一个变量(...

回答 1 投票 0

将150万张图像加载到dask群集的最快方法

我正在尝试将150万张图像作为快闪阵列保存到快闪集群中,然后获得一些摘要统计信息。我正在关注@mrocklin博客中的图像处理教程,并编辑了我的脚本...

回答 1 投票 0

Dask不会清理docker容器中的上下文

我们有一个Dask管道,我们基本上在其中使用LocalCluster作为进程池。即我们使用LocalCluster(processes = True,threads_per_worker = 1)启动集群。像这样:dask_cluster = ...

回答 1 投票 2

我必须使用jupyter notebook / lab / hub在Kubernetes集群上运行Dask吗?

我正在测试dask.distributed,用于大数据和机器学习相关的事物。我看过视频,阅读博客页面,并试图了解图书馆的文档。但是我很困惑。总有...

回答 2 投票 0

如何在Dask中写入Elastic db?

如何将计算后的数据写入Dask中的Elastic DB?就像我需要在SQL DB和Elasticsearch中输出计算结果。

回答 1 投票 0

如何通过导入创建自定义Dask工作者

我正在设置Dask,并且可以将dask用于多处理。但是,当我想使用预先配置的Dask工作程序时遇到了问题。它们的导入方式与我的主设备不同...

回答 1 投票 0

任务组无法创建客户端调度程序和工作程序

我使用dask jobqueue以以下格式创建了作业脚本:从dask.dask.distributed import导入dask_dask_jobqueue客户端import PBSCluster群集= PBSCluster(queue ='research',...

回答 1 投票 1

我们如何在通过Kubernetes上的头盔运行的dask分布式中为每个工作人员选择--nthreads和--nprocs?

我正在Dask上运行一些I / O密集型Python代码,并希望增加每个工作线程的线程数。我已经部署了一个Kubernetes集群,该集群运行通过头盔分发的Dask。我从工人那里看...

回答 2 投票 0

在所有dask.distributed worker / scheduler中维护一个git仓库

所有Dask(分布式)工作者/调度程序了解自定义git仓库的python模块的最佳方法是什么?如果对git信息库的新提交是...

回答 1 投票 1

[client.upload_file()对于嵌套模块

我有一个结构如下的项目; -topmodule /-childmodule1 /-my_func1.py-childmodule2 /-my_func2.py-common.py-__init__.py从Jupyter笔记本上的...

回答 1 投票 1

Dask分布式.utils_test.client不继承父流程环境变量吗?

我正在使用pytest来测试我敏捷的工作流程。我有一个特定的工作流程,ingest_l0_files,它使用客户端将任务映射到工作人员。在测试过程中,我需要人为设置目录路径...

回答 1 投票 1

带有Dask DataFrames的平面JSON

我正在尝试使Dask数据框中的JSON数组对象(没有文件.json)变平,因为我有很多数据,并且RAM不断被进程消耗,所以我需要一个解决方案...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.