无法查询配置单元表

Question

因此，我开始学习如何使用配置单元，但在查询我从https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports的数据集制作的表时遇到了麻烦。>

[我从5个最新的.csv文件中创建了表格后，我试图找到：1）回收率最高的10个不同国家/地区2）这些国家/地区中每个回收率最高的日期是3）/如果有任何国家的回收率高于活跃案例，则为其他国家。

我已经尝试了几种不同的方法，但是我得到的最好的结果是10个列表，其中包含3个或4个国家/地区重复出现。

所以不要像英国，英国，英国，英国，巴西，俄国，...

我想要英国，巴西，俄罗斯，美国...

我尝试按以下顺序排序，分组排序，但是我不断遇到错误/没有得到想要的结果。不确定是否会有所不同，但是我一直在使用Hadoop创建一个包含如下查询的.sql文件。然后，我将使用蜂巢-f运行它。

SELECT COUNTRY FROM COVID_19 ORDER BY COVID_19.CONFIRMED DESC LIMIT 10;

编辑-该表是这样创建的：

CREATE EXTERNAL TABLE COVID_19( `FIPS` bigint, `admin2` string, `province` string, `country` string, `last_update` string, `lat` double, `long_` double, `confirmed` bigint, `deaths` bigint, `recovered` bigint, `active` bigint, `combined_key` string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION *s3 bucket containing the csv files*

并且如前所述，链接中的数据用于制作表格。 5个最新的csv文件。

所以我开始学习如何使用配置单元，但是在查询我从数据集制成的表时遇到了麻烦，网址为https：//github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data / ...

Answer 1

关于问题1），您似乎正在寻找凝聚力。这使您可以按总confirmed排名前10个国家/地区：

select country, sum(confirmed) total_confirmed
from covid_19 
order by total_confirmed desc
limit 10

无法查询配置单元表

问题描述投票：0回答：1

1个回答

最新问题

无法查询配置单元表

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1