不带groupby的dask数据帧聚合（ddf.agg(['min','max'])？

Question

Pandas 定义了 dataframe.agg，但 DASK 只定义了 dask_dataframe.groupby.agg。

有没有一种方法可以在 dask 中的列上进行多个聚合而无需 groupby？

我知道describe()有列统计信息，它解决了一个特定问题，但我正在寻找一个通用的解决方案。

第一次尝试是创建一个具有单个值和 groupby(['min','max']) 的虚拟列。结果有效，但创建的 dask_DF 是单行、多索引列，dask 无法转置或堆栈（未实现，除非我做错了）。我想将所有内容保留在 dask 中，即使结果表足够小，可以单独在 pandas 中运行，并且处理起来也很简单，但我正在考虑如何在导出、重新导入到 pandas 的一般情况下执行此操作从本地结果来看是不可行的。

Answer 1

dask.series.reduction

可能会成功，请参阅 docs。

IIUC，关键是构造相关函数：

aggregate

和

combine

。

不带groupby的dask数据帧聚合（ddf.agg(['min','max'])？

问题描述投票：0回答：1

1个回答

最新问题

不带groupby的dask数据帧聚合（ddf.agg(['min','max'])？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1