dask-distributed 相关问题

Dask.distributed是一个用于Python中的分布式计算的轻量级库。它将concurrent.futures和dask API扩展到中等大小的集群。

带有大型csv文件的Dask数据帧合并内存错误

这是我的代码的简化版本。 import dask从dask.distributed import客户端将dask.dataframe导入为dask_frame,LocalCluster def main():cluster = LocalCluster(n_workers = 4,...

回答 1 投票 0

将大的实木复合地板文件存储在工人上

我有一个很大的镶木地板文件。我目前正在将其散布在我的工人身上。这个镶木地板文件对我来说并不经常更改。我可以将其复制给我的工人并以某种方式引用它吗?我只想...

回答 1 投票 1

dask无法识别我的服务模块

我有一个服务,其中有几个模块,并且在主文件中,我将像下面那样导入大多数模块。从base_client导入BaseClient导入request_dispatcher作为rd导入实用程序,作为...

回答 1 投票 0

如何使用Dask分布式期货

[我的未来是我广播的python集(LocalCluster):在[0]中:[set_future] = client.scatter([_ set],broadcast = True)在[1]中:set_future Out [1]:将来:设置状态:完成,键入:...

回答 1 投票 0

要在镶木地板存储中添加dask数据帧

建议将数据(大熊猫数据框)添加到镶木地板存储中现有的dask数据框的推荐方法是什么?例如,此测试间歇性地失败:将dask.dataframe导入为dd import ...

回答 1 投票 0

得分/使用Dask和Lightgbm预测大数据集

希望使用简单的分布式集群来加快lightgbm的评分/预测。本质上是在寻找与lightgbm相同的ParallelPostFit-当前似乎仅适用于sklearn ...

回答 2 投票 0

如何将.pem文件发送到Dask群集?

我有一个如下的表达式,其中我试图以分布式方式运行sqlalchemy查询。但是,它引用在connect_args参数中输入的.pem密钥文件。我如何...

回答 1 投票 0

我如何重新排列Dask系列列中每个字符串的块?

[这里是示例系列msg abcde 1-2-3-4-5 vw-x123-y0-z 0-9-8-7-6我需要从[0]-[1]-重新排列msg列[2]-[3]-[4]以此[2]-[5]-[3]-[1]-[4]为例abcde-> b -...

回答 1 投票 0

从火花中读取镶木地板文件

对于从spark(无任何分区)编写的镶木地板文件,其目录如下:%ls foo.parquet part-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet part-00018-c17ab661-2564 -428e -...

回答 1 投票 0

在多分区Dask数据帧中的组内查找最大值最小值

在处理非常大的数据帧时,我很难利用Dask分区。想象一下一个200GB的csv,其中包含出租车行程的日志。我像这样加载数据:df = dd.read_csv(“ / ...

回答 1 投票 0

带有分布式调度程序的dask.delayed KeyError

我有一个用c编写并用ctypes包装的函数interpolate_to_particles。我想使用dask.delayed对该函数进行一系列调用。代码成功运行,没有dask#...

回答 1 投票 0

如何添加具有不同索引和列的Dask数据框

我有两个csv文件。第一个可能很大,第二个很小。每一个都保存一些值,例如pandas.DataFrame。由于第一个文件可能太大,无法读取到...

回答 1 投票 1

Dask分布式库,给出序列化错误

我已初始化集群,每个集群有10个工作线程,每个工作线程有4个线程,并且我有12台核心笔记本电脑在其中运行。 cluster = makeIndividualDashboard.LocalCluster(n_workers = 10,...

回答 1 投票 0

快了,运行本身运行docker容器的任务的最简单方法是什么?

以下代码在一个可迭代对象上映射了一个函数。应用于每个元素的函数运行一个docker容器以计算其返回值:import subprocess def task(arg):...

回答 1 投票 1

定义了块大小时,任务袋陷入处理,仅在未定义时使用一个worker

我正在尝试使用Dask在本地处理单个大(1TB)json文件。该文件每行有一个对象。当我未在read_text函数中指定块大小时,代码可以完美运行,但仅在...

回答 1 投票 0

具有提前停止功能的迭代分布式交叉验证

具体来说,我想并行化xgboost交叉验证。请帮助我设计这样的Dask应用程序。假设我有一个愚蠢的集群。我想对xgboost做10倍交叉验证。让我们...

回答 1 投票 0

如何从dask-lightgbm中找到最优的n_worker,threads_per_worker和n_jobs?这些之间有任何关联吗?

我正在使用Dask分布式/ Dask LightGBM来改善运行时间。我尝试将Dask-LightGBM的n_jobs和Dask的n_worker和thread_per_worker的许多组合设置为10GB文件。 ...

回答 1 投票 0

解释Dask UI

我当时正在查看Dask UI,并试图弄清楚每个字段的含义。但是,我无法理解下图所示的write_bytes和read_bytes。另外,...

回答 2 投票 0

Dask中的XGBoost建模

我的数据集具有超过100k的观测值和120个特征。我想将XGBoost与Dask Gridsearchcv一起使用以找到最佳参数。但是它引发了错误。请让我知道我的意思是...

回答 1 投票 0

我如何通过psycopg2或asyncpg将Postgres连接池传递给Dask工作者?

我希望我的Dask工作者从ThreadedConnectionPool捕获Postgres连接,但是当像从psycopg2.pool那样传递池时,请导入ThreadedConnectionPool def worker_pg(n,pool)-> ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.