因此,我开始学习如何使用配置单元,但在查询我从https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports的数据集制作的表时遇到了麻烦。>
[我从5个最新的.csv文件中创建了表格后,我试图找到:1)回收率最高的10个不同国家/地区2)这些国家/地区中每个回收率最高的日期是3)/如果有任何国家的回收率高于活跃案例,则为其他国家。
我已经尝试了几种不同的方法,但是我得到的最好的结果是10个列表,其中包含3个或4个国家/地区重复出现。
所以不要像英国,英国,英国,英国,巴西,俄国,...
我想要英国,巴西,俄罗斯,美国...
我尝试按以下顺序排序,分组排序,但是我不断遇到错误/没有得到想要的结果。不确定是否会有所不同,但是我一直在使用Hadoop创建一个包含如下查询的.sql文件。然后,我将使用蜂巢-f运行它。
SELECT COUNTRY FROM COVID_19 ORDER BY COVID_19.CONFIRMED DESC LIMIT 10;
编辑-该表是这样创建的:
CREATE EXTERNAL TABLE COVID_19( `FIPS` bigint, `admin2` string, `province` string, `country` string, `last_update` string, `lat` double, `long_` double, `confirmed` bigint, `deaths` bigint, `recovered` bigint, `active` bigint, `combined_key` string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION *s3 bucket containing the csv files*
并且如前所述,链接中的数据用于制作表格。 5个最新的csv文件。
所以我开始学习如何使用配置单元,但是在查询我从数据集制成的表时遇到了麻烦,网址为https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data / ...
关于问题1),您似乎正在寻找凝聚力。这使您可以按总confirmed
排名前10个国家/地区:
select country, sum(confirmed) total_confirmed
from covid_19
order by total_confirmed desc
limit 10