无法查询配置单元表

问题描述 投票:0回答:1

因此,我开始学习如何使用配置单元,但在查询我从https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports的数据集制作的表时遇到了麻烦。>

[我从5个最新的.csv文件中创建了表格后,我试图找到:1)回收率最高的10个不同国家/地区2)这些国家/地区中每个回收率最高的日期是3)/如果有任何国家的回收率高于活跃案例,则为其他国家。

我已经尝试了几种不同的方法,但是我得到的最好的结果是10个列表,其中包含3个或4个国家/地区重复出现。

所以不要像英国,英国,英国,英国,巴西,俄国,...

我想要英国,巴西,俄罗斯,美国...

我尝试按以下顺序排序,分组排序,但是我不断遇到错误/没有得到想要的结果。不确定是否会有所不同,但是我一直在使用Hadoop创建一个包含如下查询的.sql文件。然后,我将使用蜂巢-f运行它。

SELECT COUNTRY FROM COVID_19 ORDER BY COVID_19.CONFIRMED DESC LIMIT 10;

编辑-该表是这样创建的:

CREATE EXTERNAL TABLE COVID_19(
`FIPS` bigint,
`admin2` string,
`province` string,
`country` string,
`last_update` string,
`lat` double,
`long_` double,
`confirmed` bigint,
`deaths` bigint,
`recovered` bigint,
`active` bigint,
`combined_key` string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
*s3 bucket containing the csv files*

并且如前所述,链接中的数据用于制作表格。 5个最新的csv文件。

所以我开始学习如何使用配置单元,但是在查询我从数据集制成的表时遇到了麻烦,网址为https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data / ...

sql group-by hive sum greatest-n-per-group
1个回答
0
投票

关于问题1),您似乎正在寻找凝聚力。这使您可以按总confirmed排名前10个国家/地区:

select country, sum(confirmed) total_confirmed
from covid_19 
order by total_confirmed desc
limit 10
© www.soinside.com 2019 - 2024. All rights reserved.