Pyspark:有一种方法可以通过将多行合并为一个来创建摘要表(或数据框)?

问题描述 投票:0回答:1

我通过解析Spark中的多个CSV创建了以下数据框。我需要对每个城市每个SKU每年每个月的平均销售额进行分组。

<table><tbody><tr><th>city</th><th>sku_id</th><th>year</th><th>month</th><th>avg_sales</th></tr><tr><td>A</td><td>SKU1</td><td>2017</td><td>Jan</td><td>100</td></tr><tr><td>A</td><td>SKU1</td><td>2017</td><td>Feb</td><td>120</td></tr><tr><td>..</td><td>..</td><td>..</td><td>..</td><td>..</td></tr><tr><td>Z</td><td>SKU100</td><td>2019</td><td>Dec</td><td>99</td></tr></tbody></table>

所需的输出:

<table><tbody><tr><th>city</th><th>sku_id</th><th>year</th><th>Jan_avg_sales</th><th>Feb_avg_sales</th><th>..</th><th>Dec_avg_sales</th></tr><tr><td>A</td><td>SKU1</td><td>2017</td><td>100</td><td>120</td><td>..</td><td>320</td></tr><tr><td>A</td><td>SKU1</td><td>2017</td><td>98</td><td>118</td><td>..</td><td>318</td></tr><tr><td>..</td><td>..</td><td>..</td><td>..</td><td>..</td><td>..</td><td>..</td></tr><tr><td>Z</td><td>SKU100</td><td>2019</td><td>99</td><td>114</td><td>..</td><td>314</td></tr></tbody></table>

我已经使用python字典实现了摘要表的创建,但是我不相信该解决方案。

python apache-spark pyspark pyspark-sql pyspark-dataframes
1个回答
0
投票

如果您有数据框,则可以这样做:

dataframe.groupby(['year', 'city', 'sku']).mean()

如果您共享python代码,我可以修改答案以适合您的情况。

© www.soinside.com 2019 - 2024. All rights reserved.