Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
我试图在Mac OSX上通过pip安装dask [完整],但我总是没有找到匹配:dask [完整]。在Mac OSX上安装dask [complete]库的最佳方法是什么? pip install dask [...
为什么dask worker因“小”大小的任务导致MemoryError失败? [Dask.bag]
我在多个图像上运行管道。管道包括从文件系统读取图像,对每个图像进行处理,然后将图像保存到文件系统。然而,dask ......
如何在一台机器上使用所有内核的Pandas Dataframes并行化apply()?
截至2017年8月,不幸的是,Pandas DataFame.apply()仅限于使用单核,这意味着当您运行df时,多核机器将浪费大部分计算时间....
我正在尝试使用dask.distributed基于来自多个CSV文件的内容同时更新Postgresql数据库。理想情况下,我们会在N个工人中分发CSV文件,每个工人都会...
Dask的默认pip安装提供“ImportError:No module named toolz”
我使用像这样的pip安装Dask:pip install dask,当我尝试将dask.dataframe导入为dd时,我收到以下错误消息:>>>导入dask.dataframe作为dd Traceback(大多数...
这个问题是指上一篇文章所提出的解决方案对于较小的数据集非常有效,这里我用7个.txt文件进行操作,总内存为750 MB。哪个不应该......
默认情况下,描述Dask DataFrame的方法仅汇总数字列。根据文档,我应该能够通过提供include参数来获得分类列的描述。 ...
Python-dask / pandas如何删除/排除每个组中的最后一个观察
我正在使用Python dask来处理大型csv面板数据集(10GB +)。数据框看起来像股票日期时间差价时间_diff VOD 01-01 9:05 0.01 0:07 VOD ...
我有一个如图所示的数据框,我想要做的是沿着'试验'栏中的平均值。对于每个主题,条件和样本(当所有这三个列都有值时),采取...
我正在研究一个基于binderhub的笔记本,为我的库运行一些使用dask和xarray的例子。我发现在某些情况下/计算中,线程调度程序只会挂起......
Pandas - 使用read_csv指定具有混合列数据的dtype
我正在尝试加载几个相当大的CSV(总数:大约30M行/ 7GB)。一些列是混合的int和浮点数 - 我希望这些列为np.float16。理想情况下,dtype参数......
如何对每个worker上的dask进行排队以允许顺序执行进程?
我需要工人一次处理一个任务,并在开始新任务之前完成当前流程。我无法做到:(1)每个工人最多只能运行一个任务,(2)制作......
使用dask可视化图形时,生成的图形有2种节点。方形节点和圆形节点。一般来说,方形节点似乎是实际值。虽然圈子......
我有多个netCDF4数据集,其中包含一整年的月度天气数据。在xarray中使用groupby方法提取月度数据后,我无法获得统计信息......
dask dataframe如何将列转换为to_datetime
我正在尝试将我的数据帧的一列转换为datetime。在这里讨论之后https://github.com/dask/dask/issues/863我尝试了以下代码:import dask.dataframe as dd df ['time'] ....
TypeError:在pandas DataFrame上使用dask时无法pickle _thread._local对象
我有一个巨大的DataFrame,我想使用dask进行处理以节省时间。问题是我遇到了这个TypeError:一旦启动就无法发现_thread._local对象错误...
为什么我不能用datashader绘制这个dask数据帧(没有足够的值来解压缩)?
我想用datashader + holoviews绘制一张大图,但是我收到了一个错误。小的和可重复的东西是:导入holoviews为hv import pandas as pd import dask.dataframe as dd ...
类型错误: ()缺少1个必需的位置参数:'df'使用data.head()作为dask数据帧
我试图执行data.head()来查看一个dask数据帧并得到以下错误:TypeError: ()缺少1个必需的位置参数:'df'这个错误特别发生在......之后
是否有一个相当于pandas空函数的dask?我想检查一个dask数据帧是否为空但df.empty返回AttributeError:'DataFrame'对象没有属性'empty'
Dask Distributed:并行读取和分析大量单个文件
问题如何使用Dask Distributed将文件目录并行化为单个DataFrames,然后使用自定义函数处理?假设n文件类似于100,000 ...