hive 相关问题

Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。

如何减去蜂巢中的项目

我为每个客户提供了两个项目清单,ItemListA和ItemListB Customer_id ItemListA ItemListB 24 2,3 3,4,5 26 6,7 8,9,10 25 4,5 ...

回答 4 投票 0

使用当前日期进行Hive分区

我有一些样本日期,如此1,prasad,Newyork 2,Tarak,墨西哥我想使用当前日期的分区将此数据加载到hive表中,当我明天再次加载此数据时应该是......

回答 1 投票 1

Hive:将hdfs中的gziped CSV作为只读加载到表中

我有一个hdfs文件夹,里面有很多csv.gz,都有相同的架构。我的客户需要通过Hive阅读这些表的内容。我试图应用https://cwiki.apache.org/confluence / ...

回答 1 投票 0

数据存储企业DSE中的'hive on spark'?

DSE 6预先捆绑了Cassandra和SparkSql。有人还在那里设置'Hive on Spark'吗?我想知道火花版本冲突是一个问题。原因我不想这就是Hive似乎允许......

回答 1 投票 1

无法将窗口调用分解为组。错误:org.apache.hadoop.hive.ql.parse

我正在尝试从两个表连接两列,以生成一列的唯一id.Max列值,其中包含另一个表的行号。从MPPO S中选择(MAX(S.m_id));选择row_number()OVER(ORDER ...

回答 2 投票 1

Hive查询:匹配列数组的字符串值以生成标志

我有一些记录,其中每一行都属于某些类别(数据类型 - 字符串数组)和唯一类别(数据类型 - 字符串)的单独列表。我需要将每一行与唯一列表匹配并且......

回答 1 投票 3

如何将oracle表导入hive表

我试图使用sqoop将oracle表导出到hive表:sqoop import --connect jdbc:oracle:thin:@ :1521: - 用户名 - 密码 - 表

回答 2 投票 0

如何根据配置单元中的3列查找上一个日期值

我想基于3列找出目标表中的上一个日期值。附带的屏幕截图中解释了示例和场景。请帮忙。

回答 2 投票 0

Row格式serde是创建Hive表时要使用的必需参数

我在文本文件的顶部创建了一个临时的hive表,如下所示:CREATE EXTERNAL TABLE tc(fc String,cno String,cs String,tr String,at String,act String,wa String,dn String,pnm String,rsk String,ttp ...

回答 1 投票 0

Hive:从文本文件创建表。处理特殊字符

我有txt格式的数据文件,我需要加载到一个hive表我创建了一个表来从这个文件加载数据,然后LOAD命令插入数据,如下所示CREATE TABLE dev.table(...

回答 1 投票 -1

如何使用subprocess.run()来运行Hive查询?

所以我试图使用子进程模块执行一个配置单元查询,并将输出保存到文件data.txt以及日志(到log.txt),但我似乎遇到了一些麻烦。我看看......

回答 1 投票 0

我们如何仅从hdfs联合中的一个名称空间中排除某些数据节点?

我正在检查hadoop联合会。这里的数据节点很常见,只有命名空间才不同。我们如何只从一个命名空间中排除某些数据节点。

回答 1 投票 0

为什么在Hive中计数(明显)慢于group by?

在Hive上,我相信count(不同)将比group-by更可能导致减速器的工作量不平衡,并最终导致一个悲伤的减速器磨损。下面的示例查询。为什么?示例......

回答 1 投票 15

使用Talend中的tHiveRow组件运行多个配置单元查询

您好我想通过单个组件调整多个配置单元查询。通过tHiveRow我可以运行单个查询但无法一次运行多个查询。我知道我们可以运行多个sql ...

回答 2 投票 2

Hive:如何获取集群的名称

我想获取运行配置单元的集群的名称。通常,我所做的是[user @ someVM~] $ hive -H *附加到someCluster Hadoop集群*用法:hive -d, - define ...

回答 1 投票 0

如何优化大型数据集的查询?

我原来的查询 - CREATE TABLE admin.FctPrfitAmt_rpt AS SELECT rcn。* FROM(SELECT t1。* FROM(SELECT * FROM admin.FctPrfitAmt t2 WHERE t2.scenario_id NOT IN(SELECT DISTINCT t3.scenario_id FROM ...

回答 3 投票 3

连接到Hortonworks Hadoop / Hive

我尝试建立与Apache Hive的连接。这样做我使用了与Impala的连接作为蓝图(http://www.iccube.com/support/documentation/user_guide/schemas_cubes/ds_hadoop.php)。 JDBC ......

回答 1 投票 2

Hive:执行错误选择并同时删除分区配置单元查询

我在同时运行两个查询时遇到错误。这是场景。我正在使用AWS EMR,下面是我的hive表架构。 CREATE TABLE India(OFFICE_NAME STRING,OFFICE_STATUS ......

回答 1 投票 1

Matplotlib小时分钟直方图

jupyter notebook 5.2.2 Python 3.6.4 pandas 0.22.0 matplotlib 2.2.2嗨我正在尝试根据从hadoop检索的小时和分钟日志数据在jupyter笔记本中呈现和格式化直方图...

回答 1 投票 0

如何根据表中的数据获取镶木地板文件名

我试图找出许多镶木地板文件中的哪一个是存储在表中的数据,用于特定的日期条件集。例如:从表中选择文件名,其中dateCol ='1-1-2010'; ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.