如何分组然后在多列上聚合

Question

我正在 Spark 上使用 Pandas。我需要对 A 和 B 进行分组，然后聚合以返回一个映射列表，其中键是 C，值是 D 输入示例：

         A      B        C           D
0        7 201806851 0006378110  2223982011
1        7  6378110 0006378110  2223982011
2        7 201806851  201806851  20972475011
3        7  6378110  201806851  20972475011

输出示例：

         A      B        C
0        7  6378110 [[0006378110, 2223982011], [201806851, 20972475011]]
1        7 201806851 [[0006378110, 2223982011], [201806851, 20972475011]]

这是我的代码。它在第一行给出错误，

assert len(key) == len(that_column_labels) AssertionError

。有什么想法吗？

seed_data["C"] = seed_data[["C", "D"]].to_dict('records')
seed_data = (seed_data
                     .groupby(["A", "B"])["C"]
                     .apply(list).reset_index(name="C"))

尝试了一些事情，例如将 C 列和 D 列提取到单独的数据框中，转换为 dict，然后将其用作聚合列。但出现断言错误。

Answer 1

可以使用本机 Spark 函数以有效的方式完成此操作。在 pyspark 中，您需要对数据框进行分组，然后收集

c -> D

对的列表

seed_data.groupBy('A', 'B').agg(F.collect_list(F.create_map('C', 'D')).alias('CD'))

+---+---------+--------------------------------------------------------+
|A  |B        |CD                                                      |
+---+---------+--------------------------------------------------------+
|7  |201806851|[{0006378110 -> 2223982011}, {201806851 -> 20972475011}]|
|7  |6378110  |[{0006378110 -> 2223982011}, {201806851 -> 20972475011}]|
+---+---------+--------------------------------------------------------+

如何分组然后在多列上聚合

问题描述投票：0回答：1

1个回答

最新问题

如何分组然后在多列上聚合

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1