我有以下数据集
1,Australia,5
2,Canada,6
3,United States,6
4,Canada,8
5,Australia,5
其中架构为a1,a2,a3
我可以通过以下方式使用Hive来使用分组:
select a2, count(*) from table_name group by a2;
但是使用Pig我无法获得相同的结果。到目前为止,我已经尝试了以下命令
A = LOAD 'dataset.csv' as (a1:int, a2:chararray, a3:int);
B = GROUP A by a2;
result = FOREACH B GENERATE COUNT(A);
DUMP result;
我的预期输出是:
Australia,2
Canada,2
United States,1
请帮助。
我知道了。只是缺少别名和组名。
A = LOAD 'dataset.csv' as (a1:int, a2:chararray, a3:int);
B = GROUP A by a2;
result = FOREACH B GENERATE group, COUNT(A) as cnt;
DUMP result;