无法执行Apache Pig组

问题描述 投票:0回答:1

我有以下数据集

1,Australia,5
2,Canada,6
3,United States,6
4,Canada,8
5,Australia,5

其中架构为a1,a2,a3

我可以通过以下方式使用Hive来使用分组:

select a2, count(*) from table_name group by a2;

但是使用Pig我无法获得相同的结果。到目前为止,我已经尝试了以下命令

A = LOAD 'dataset.csv' as (a1:int, a2:chararray, a3:int);
B = GROUP A by a2;
result = FOREACH B GENERATE COUNT(A);
DUMP result;

我的预期输出是:

Australia,2
Canada,2
United States,1

请帮助。

hadoop apache-pig
1个回答
0
投票

我知道了。只是缺少别名和组名。

A = LOAD 'dataset.csv' as (a1:int, a2:chararray, a3:int);
B = GROUP A by a2;
result = FOREACH B GENERATE group, COUNT(A) as cnt;
DUMP result;
© www.soinside.com 2019 - 2024. All rights reserved.