Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。
强制应用函数以返回数据帧:AttributeError:'DataFrame'对象没有属性'name'
[意识到这将显示为重复项,但是在检查了dask后应用:AttributeError:'DataFrame'对象没有属性'name',但我仍然不清楚我的代码在哪里...
Dask DataFrame过滤器和重新分区给出了一些空分区
我正在尝试过滤Dask DataFrame,然后使用map_partitions将功能应用于每个分区。该函数需要一个至少包含1行的pandas DataFrame。这是要生成的代码...
使用tls连接的黄昏无法使用to_parquet方法结束程序
我正在使用dask处理10个文件,每个文件的大小约为142MB。我用延迟标签构建了一个方法,下面是一个示例:@ dask.delayed def process_one_file(input_file_path,...
我已经阅读了Dask-ML文档,并在Google周围搜索,但是有2个问题,我想弄清楚是否有人可以提供帮助:说“使用计算机集群”,是否表示...
我正在尝试在大型数据集上计算最近n天(n = 30)的滚动平均值。在熊猫中,我将使用以下命令:temp = chunk.groupby('id_code')。apply(lambda x:x.set_index('...
在带有LocalCluster的Dask分布式调度程序的上下文中:有人可以帮助我了解具有大型(堆)映射功能的动态特性吗?例如,考虑Dask数据框...
我正在尝试使用可视化方法来可视化Dask图。但是,生成的图像太小(因为图中有很多节点)。如何增加尺寸?这是...
在处理本地项目时,由于未安装local_project,因此从local_project.funcs导入local_func将在群集中失败。这迫使我在同一个文件上开发所有内容。 ...
这是我的代码的简化版本。 import dask从dask.distributed import客户端将dask.dataframe导入为dask_frame,LocalCluster def main():cluster = LocalCluster(n_workers = 4,...
我有一个很大的镶木地板文件。我目前正在将其散布在我的工人身上。这个镶木地板文件对我来说并不经常更改。我可以将其复制给我的工人并以某种方式引用它吗?我只想...
ValueError:样本的大小不足以包含至少一行数据。请增加`sample`
我正在尝试读取一个csv文件(2GB)。由于大小很大,我使用了dask,但它显示了ValueError:示例的大小不足以包含至少一行数据。请增加...的数量...
[我有一个使用dask的简单程序:将dask.array作为darray导入numpy作为np X = np.array([[1.,2.,3。],[4.,5.,6。], [7.,8.,9。]])arr = darray.from_array(X)...
我有几个文件。最大的是约8700万行。我还有约50万行。我正在做的一部分工作就是加入他们,当我尝试与Pandas一起工作时,我遇到了内存问题。所以我有...
我有一个服务,其中有几个模块,并且在主文件中,我将像下面那样导入大多数模块。从base_client导入BaseClient导入request_dispatcher作为rd导入实用程序,作为...
[我的未来是我广播的python集(LocalCluster):在[0]中:[set_future] = client.scatter([_ set],broadcast = True)在[1]中:set_future Out [1]:将来:设置状态:完成,键入:...
假设我有一个dask数据帧,如下所示:pprint(daskdf.head())网格纬度... 2014-12-29 2014-12-30 2014-12-31 0 0 48.125 -124.625 ... 0.0 0.0 -17.034216 1 ...
建议将数据(大熊猫数据框)添加到镶木地板存储中现有的dask数据框的推荐方法是什么?例如,此测试间歇性地失败:将dask.dataframe导入为dd import ...
希望使用简单的分布式集群来加快lightgbm的评分/预测。本质上是在寻找与lightgbm相同的ParallelPostFit-当前似乎仅适用于sklearn ...
我正在使用dask逐行处理文件。但是,dask似乎不执行任何操作。我的代码逻辑如下:从dask导入dask从时间延迟导入import import @ dask.delayed def ...
我正在与vaex和dask一起进行一些分析。在分析的第一部分中,我对dask.dataframe进行了一些处理,目的是将我计算出的数据帧导出到...