Pandas 定义了 dataframe.agg,但 DASK 只定义了 dask_dataframe.groupby.agg。
有没有一种方法可以在 dask 中的列上进行多个聚合而无需 groupby?
我知道describe()有列统计信息,它解决了一个特定问题,但我正在寻找一个通用的解决方案。
第一次尝试是创建一个具有单个值和 groupby(['min','max']) 的虚拟列。 结果有效,但创建的 dask_DF 是单行、多索引列,dask 无法转置或堆栈(未实现,除非我做错了)。 我想将所有内容保留在 dask 中,即使结果表足够小,可以单独在 pandas 中运行,并且处理起来也很简单,但我正在考虑如何在导出、重新导入到 pandas 的一般情况下执行此操作从本地结果来看是不可行的。