hiveql 相关问题

Apache Hive数据仓库基础结构中使用的SQL变体。将此标记用于与Hive查询语言相关的问题,包括HiveQL语法和HiveQL特定的函数。

hive UDF-将StringObjectInspector转换为String

我正在编写通用UDF。如果我直接使用UDF,那么它可以工作,但是,如果我将UDF与其他函数(distinct,max,min)一起使用,它甚至不会调用评估函数。我想看看发生了什么,所以...

回答 1 投票 0

如何在where子句中添加冗余的真实条件以提高Hive查询性能?

让我举例说明。我们有一个包含100万条记录的表,其中有几列。注意where子句中的dt条件。创建表tbl作为select * from some_table where dt&...

回答 1 投票 0

将多个数组合并到映射中

我有一些数据(来自全表的样本),看起来像这样:| prov_id | hotel_id | m_id | apis_xml | company_id | yyyy_mm_dd | | --------- | ---------- | ------ | ---------- | ---------- -| ------------ | | ...

回答 1 投票 1

Athena:如何检查不同行的数组中重复元素的数量

我总体上不熟悉SQL或HIVE或Athena。我有下表col_id,col_list ABC,[abcde,123gd,12345,...] B3C,[bbbbb,ergdg,12345,...] YUT,[uyteh,bbbbb,...

回答 1 投票 0

通过获取同一分区中的上一个日期进行分区

我具有下表,其中包含我的sql查询结果的输出未提供我想要查看的输出(我在pyspark中执行此操作,因此是sive版本的sql):这是...

回答 1 投票 0

EMR主节点和从节点的自定义端口列表

我正在处理一个数据项目,我正在使用EMR集群进行数据处理。我的AWS环境受到限制,不允许我使用EMR管理安全组。为此,我需要自定义列表...

回答 1 投票 0

PySpark:根据其他列值与某些特定值匹配的条件选择一个列,然后将匹配结果创建为新列

我之前问过相似性问题,但是由于某些原因,很遗憾我不得不在PySpark中重新实现它。例如,app col1 app1有人爱我吗? app2我讨厌u app3这个...

回答 1 投票 0

捕获连续的年份范围,但出现蜂巢中断

我试图在配置单元中编写查询,以返回连续年份和间隔年份(如果年份之间存在间隔)的年份范围的数据。我想让我的头...

回答 2 投票 2

Hive查询:根据其他列值与某些特定值匹配的条件选择一个列,然后将匹配结果创建为新列

我必须在HiveQL中进行一些查询和创建列操作。例如,app col1 app1有人爱我吗? app2我讨厌你app3这顶帽子很好app4我不喜欢这个app5 ...

回答 2 投票 2

逻辑运算符不在括号内,返回令人困惑的结果

我有以下WHERE子句:NOT(除法='Freemium'AND team = 999并且触摸IS NULL)我希望这与以下内容相同:no WHERE子句减(除法(除法='Freemium'AND team = 999 AND)。 ..

回答 1 投票 1

如何使用Hive解析多个嵌套的JSON数组

{“ base”:{“ code”:“ xm”,“ name”:“ project”},“ list”:[{“ ACode”:“ cp1”,“ AName”:“ Product1”,“ BList” :[{“ BCode”:“ gn1”,“ ...

回答 1 投票 0

为什么Hive SQL在Select语句中的特定列都具有所有双精度值的情况下返回该列的NULL值?

我正在使用Hive SQL。版本是Hive 1.1.0-cdh5.14.0。在下面的示例中,sp.close是具有双精度值类型的列。我检查了sp.column,绝对没有NULL值。然而,在此...

回答 1 投票 0

无序列保证的条件LEAD / LAG

如果没有保证前面或后面的提前/滞后满足某个条件,该如何写有条件的提前/滞后?就我而言,我正在查看网站流量。样本数据(...

回答 2 投票 0

从配置单元中的先前分区获取数据

我想生成一个报告,比较今天分区的数据和7天前的数据。表已分区在数据分区上。我可以执行data_date-7并获取该分区。但是假设我不...

回答 1 投票 0

Hive ORC表空字符串

我有一个Hive表,其中的数据存储为ORC。我在某些字段中写了空值(空白,““”),但是有时当我在此表上运行选择查询时,空字符串列在...

回答 1 投票 0

如何从各个学科中选拔前20%的学生

[每门学科的前20%的学生排名(根据获得的分数而定)对于每门学科,找出这些前20%的学生所获得的平均分数。以下是样本数据:这必须是...

回答 1 投票 -2

如何从在日期列上划分的配置单元表中获取最新日期?

例如如果我的日期列是load_date,则使用max(load_date)运算符将扫描配置单元中的每个数据文件,从而使其成为昂贵的操作。相反,有什么最佳方法可以从...

回答 1 投票 0

在Spark SQL中由vs进行分发

我最近开始研究spark,在加入之前,我们总是使用cluster by来优化表,但是我想知道在哪种情况下,我们更喜欢使用by by cluster by子句进行分配...。

回答 1 投票 0

单个查询中的多个聚合和分组依据

我有一个具有以下大致结构的SQL表:Employee |日期|部门|国家(地区)|指定我想要的结果是采用以下结构:...

回答 1 投票 0

如何通过Hive中的数组总和归一化数组?

我有一个像这样的配置单元:id | value_array 1 | [1、2、3、4] 2 | [1、2、1、1]我希望通过数组的总和来对value_array进行归一化,以便获得以下结果:id | ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.