Apache Hive数据仓库基础结构中使用的SQL变体。将此标记用于与Hive查询语言相关的问题,包括HiveQL语法和HiveQL特定的函数。
我有这样一个SQL查询,我想把它转换为可以在HiveQL上运行的查询。SELECT p.id FROM page p, comments c, users u, WHERE c.commentid= p.id AND u.id = p.creatorid AND u.upvotes ....
我正试图了解我在工作区经常听到的一种方法的优缺点。Spark在将数据写入Hive表(InsertInto)时,会出现以下写到......
我在HIVE中有三个外部表:表1:CREATE EXTERNAL TABLE IF NOT EXISTS table_1( unique_key_column_1 VARCHAR, column_needed_1 DATE, column_needed_2 TIMESTAMP, column_needed_3 INT, ...。
HIVE SubQuery表达式指的是Parent和SubQuery表达式。
所以我有这个HIVE查询。SELECT p.id FROM posts p JOIN comments c ON c.postid = p.id JOIN users u ON u.id = p.owneruserid JOIN badges b ON b.userid = u.id CROSS JOIN postlinks l WHERE l......。
我使用HiveQL,我需要使用出生日期列来计算年龄,但问题是GetDate不工作,而Current_Date()却可以。我正在尝试的例子是Ex: datediff(yy,...)
我试图使用公共角色创建表,而且我已经在目标数据库上给用户分配了所有权限,但创建表脚本仍然失败--错误。错误:编译语句时出错。错误:编译语句时出错:...
我在Hive中使用hive.executeUpdate("CREATE TEMPORARY TABLE AS SELECT ...")从Spark创建了几个临时表。我用hive.showTables().show()检查所有表,在会话间......。
我试图根据ID的数量来分配一个状态,使用一个指标。这是我写的查询(它的工作原理): select x.yyyy_mm_dd, x.prov_id, x.app, x.metric, x.is_100, ....
这个问题可能以前有人问过,我对HADOOP和HIVE语言比较陌生。所以我想导出内容,作为测试,看看我做的事情是否正确。代码如下。...
我有点需要帮助的这一个。我有客户表和映射表。我需要连接的表。场景是这样的。表1(customer): uid job level status 1 64 68 75 2 ...
我在 "content "列里有一个json,格式如下。{ "identifier": [ { "type": { "type": { "coding": [ { "coding": { "code": "MRN", }...
我有一个hive表(consumer_data),表中的分区列'val_dt'是一个字符串列,其值的日期格式为'yyyy-MM'。我在表中有多个分区,从'2015-01'到'...'。
我需要把下面的代码在案例语句:select count (*) from db.tab1 lateral view explode(secondary.tertiary) exp as lv where id IN ('6','1') and array_contains (lv.ci, "1"); 我已经试过: ....
有人告诉我,count(distinct )可能会导致数据偏斜,因为只用了一个reducer。我使用一个有50亿数据的表做了一个测试,有两个查询,查询A:select count(distinct columnA)......。
我试图将yulu格式的start_time隐藏到pst中。开始时间样本: 2020-02-04T04:36:42:211Z from_unixtime(unix_timestamp(sub string(start_time,1,17),'yyy-MM-ddThh:mm:ss.SSSZ),'yyy-...'。
我要整理数据。Ip: 需要用蜂巢或数据框架输出。ID P ID