dask 相关问题

Dask是一个灵活的并行计算库,用于分析计算。它支持针对计算和大数据集合优化的动态任务调度。

我写了一个 lambda 函数用于 Pandas 的聚合函数。我怎样才能在 Dask 的聚合函数中实现这个 lambda 函数?

我编写了一个自定义 lambda 函数,需要在数据帧中的 groupby 操作之后应用。 lambda 函数将特定组中的所有**唯一**字符串与

回答 1 投票 0

运行时警告情节

当我尝试绘制一些数据时:ndvi.mean(['x', 'y']).plot.line('b-^', figsize=(11,4)) 我收到了很多警告,例如:运行时警告 视窗 蟒蛇 3.9.15 dask==2022.12.0 Matplotlib==3.7.1 Numpy==...

回答 0 投票 0

Dask Distributed:将 Dask 分布式 worker 限制为 1 个 CPU

我的系统有 4 个 CPU,16 GB 内存。我的目标是部署 dask 分布式工作人员,每个工作人员仅使用 1 个 CPU 来运行分配给他们的代码。 我正在使用 ...

回答 3 投票 0

Archival using Parquet-Dask or Snowflake [关闭]

我们需要创建一个数据存储来存储每天创建的多个数据文件(具有不同的列);商店应以压缩格式保存它们并...

回答 0 投票 0

数据存储设计建议

我们需要创建一个数据存储来存储每天创建的多个数据文件(具有不同的列);商店应以压缩格式保存它们并...

回答 0 投票 0

可序列化对象在 dask 中不可序列化

我在以下函数上调用 dask.delay,用于循环中的多个“自我”(同一类的不同对象)。 这是延迟函数,定义在

回答 0 投票 0

如何使用Dask重新投影一个巨大的netcdf文件并保存?

目标:我有一个没有分配投影的 3.33 Gb netcdf 数据集。我想为它分配一个投影(它在 EPSG:32607 中,但不在文件的属性中),并将其保存在磁盘上。

回答 0 投票 0

跨 dask 数据帧分区的方法

我正在进入 dask 并想利用 dask.distribution 库来并行计算。考虑以下示例数据框: 将熊猫导入为 pd 将 numpy 导入为 np 导入 dask.

回答 0 投票 0

单 GPU 上的 Dask 推理 MMDetection

我有一个预训练的 MMdetection 模型,我计划将其用于对大型数据集进行推理。我收集要在数据框中处理的数据集并将其传递到我的推理阶段。 # 加载模式...

回答 0 投票 0

是否可以在 Dask map_partitions 中返回大于行的数据框?

我正在尝试从 dask map_partitions 函数返回一个数据框。我提供的示例代码在函数中返回一个 2 行数据框。但是最终结果中只显示了 1 行。我...

回答 0 投票 0

具有值的列的 dask 数据帧错误:2023-01-03T06:58:46.360000+00:19207,同时写入 csv

我的 csv 文件包含“完成日期”列,其值格式为 '2023-01-03T06:58:46.360000+00:00' 我认为它卡住了,因为它在日期时间戳之间有“T”

回答 1 投票 0

从 DOB 获取年龄 - Dask

当我有一个“DOB”列时,如何包含一个名为“Age_cust”的新列? 从日期时间导入日期 今天 = date.today() ddf = ddf.assign(Age_cust=cust.map_partitions(la...

回答 2 投票 0

当客户端不是默认调度程序时,Dask.distributed 性能报告不起作用

我刚刚尝试使用 LocalCluster 为 Client() 创建性能报告。然而,似乎只有当 Client() 被注册为默认调度程序时,性能报告才有效(

回答 1 投票 0

pandas 数据框内的 Numpy 数组未转换为列表

我正在尝试将包含 numpy 数组的数据框写入镶木地板文件。这适用于列表,但不适用于 numpy 数组。使用 numpy 数组时,出现以下错误:('Can only convert 1-

回答 0 投票 0

Dask延迟数据不匹配

我希望用 dask 将许多数据帧组合成 1 个数据帧。但是,当我尝试使用 dd.from_delayed(parts, meta=types) 读取这些数据帧时,出现错误 Metadata mismatch found in 'from_de...

回答 1 投票 0

RuntimeError: Cluster failed to start with dask LocalCudaCluster example setup

我是 Dask 的新手,在执行示例代码时遇到问题: 从 dask.distributed 导入客户端 从 dask_cuda 导入 LocalCUDACluster 集群 = LocalCUDACluster() 客户=客户(群...

回答 1 投票 0

使用 dask 将二次多项式拟合到滚动窗口值的最快方法?

我有一个 36k x 3k(行、列)的大数据集,我想将二次多项式拟合到以每列的每个值为中心的一维滚动窗口(大小=n)的值。我知道这是一个非常...

回答 1 投票 0

快速加载 .txt 文件到 pandas df

这是我目前正在使用的代码,它工作正常并且完全符合我的要求。 df_list = [] 对于反向文件名(os.listdir(路径)): df_small = pd.read_csv(os.path.join(pa...

回答 2 投票 0

随机访问一行 Dask 数据帧需要很长时间

我有一个包含 1 亿行数据的 Dask 数据框。 我试图在不加载整个数据帧的情况下迭代此数据帧 到内存。 对于一个实验,试图访问索引行等于 t...

回答 4 投票 0

写入大 CSV 时输入/输出错误

我有一个大的 CSV (200 GB),我已经在 Dask 中加载并处理/操作了我需要的正确形式。 执行以下行时: df_final.to_csv(prefix, sep=" &qu...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.