不带groupby的dask数据帧聚合(ddf.agg(['min','max'])?

问题描述 投票:0回答:1

Pandas 定义了 dataframe.agg,但 DASK 只定义了 dask_dataframe.groupby.agg。

有没有一种方法可以在 dask 中的列上进行多个聚合而无需 groupby?

我知道describe()有列统计信息,它解决了一个特定问题,但我正在寻找一个通用的解决方案。

第一次尝试是创建一个具有单个值和 groupby(['min','max']) 的虚拟列。 结果有效,但创建的 dask_DF 是单行、多索引列,dask 无法转置或堆栈(未实现,除非我做错了)。 我想将所有内容保留在 dask 中,即使结果表足够小,可以单独在 pandas 中运行,并且处理起来也很简单,但我正在考虑如何在导出、重新导入到 pandas 的一般情况下执行此操作从本地结果来看是不可行的。

python pandas dask dask-dataframe
1个回答
0
投票

dask.series.reduction
可能会成功,请参阅 docs

IIUC,关键是构造相关函数:

aggregate
combine

© www.soinside.com 2019 - 2024. All rights reserved.