hive 相关问题

Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。

在 Flutter Hive 中按索引删除多个项目

我正在用 hive 和 flutter 构建一辆购物车。 我想选择多个商品,然后使用索引从购物车中删除!因为可能有 2 个商品具有相同的标题,但尺寸或数量不同。 蜂巢...

回答 1 投票 0

如何读取hive ACID ORC表转储

我尝试使用 pyspark 和 hive 读取 hive ACID ORC 表转储文件。 转储文件架构如下。 结构< operation: int, originalTransaction: bigInt, bucket: int, rowId: bigInt,

回答 0 投票 0

如何在hive中添加多级分区?

我在配置单元中有客户管理的表,根据日期和客户名称进行分区。我的目录结构如下: 用户/hive/warehouse/test.db/customer/date1=2021-09-16/customerName=xyz w...

回答 1 投票 0

如何找到 Hive 中表的上次修改时间戳?

我正在尝试获取 Hive 中表的最后修改时间戳。

回答 8 投票 0

json 结构类型加载到 hive

我有一个如下所示的json文件,并尝试从交易中获取first_name.. json文件: {"transNo_1":{"dataset1":{"first_name":"Ram1","last_name&q...

回答 0 投票 0

Apache Spark 和 Hive

23/07/27 15:29:10 错误spark.SparkTask:无法执行spark任务,异常'org.apache.hadoop.hive.ql.metadata.HiveException(无法为Spark会话079f6c36创建Spark客户端-395f...

回答 0 投票 0

如果其中一个值与 org.apache.hadoop.hive.serde2.OpenCSVSerde AWS Athena 中的相应列类型不匹配,如何跳过读取行?

我在 Athena 中创建了一个表,该表使用以下查询从 S3 文件夹内的 gziped csv 文件获取数据: 如果不存在,则创建外部表 `mydatabase`.`mytable` ( `messageId` st...

回答 1 投票 0

regexp_replace 替换字符串后面的第一个匹配项,并返回完整字符串

我有一个字符串,上面写着“不要替换此文本,而是替换最后一个文本<-- this one". I want to replace the first match from the back of the string, and return the full ...

回答 1 投票 0

蜂巢分裂双##

我的字符串是[xxxxxxxx##yyyyyyyy##zzzzzz]。我想用双 ## 来分割它。 hive 中的 split(str, '##') 返回空。图案怎么样?

回答 0 投票 0

如何删除带分区的hive表中的重复数据?

必须删除2023-03-26至2023-07-10之间的重复数据。 我尝试使用此命令从表中删除重复项,但出现错误。 命令: 设置 hive.exec.dynamic.partit...

回答 1 投票 0

ParseException 第 13:211 行无法识别表达式规范中 '(' 'SELECT' 'a' 附近的输入 (state=42000,code=40000)

我将 Vertica 查询转换为 HIVE 以在 hive 上创建视图。这是以下查询: 创建视图 db_metadata.vw_gensql_webmddev_staging AS 选择a.sql_order, 一个.sql, a.posn, ...

回答 0 投票 0

无法使用 Spark Shell 中的现有 Hive 表创建外部 Hive 表

我正在尝试使用 Spark shell 中的现有配置单元表创建外部表。 (这在 beeline/Hive shell 中工作正常,但无法在 Spark Shell 中执行) Spark.sql(“创建外部表...

回答 1 投票 0

hive分区可以指向主分区内的多个目录吗?

我的文件夹结构如下 gs://bucket_name/data/db_name.db/table_name/color=red/txn_dt=2023-01-01/.bin_1 gs://bucket_name/data/db_name.db/table_name/color=red/txn_dt=2023-01-01/.bin_2 GS://

回答 0 投票 0

Apache Spark JAVA_9 通用语言版本上的 Apacher Hadoop 、Apacher Hive

尝试设置Hive使用Spark作为引擎。 经过长时间的配置后,出现超时错误。 应用程序日志文件纱线日志-applicationId 错误yarn.ApplicationMaster:用户类抛出异常...

回答 2 投票 0

HUE sql 脚本关键字搜索在 case 语句中返回错误值

嗨,我有一个脚本来查找关键字,但它似乎只有在关键字两侧都是数字时才有效。如何无论两边是什么都搜索关键字? 例如,以下

回答 0 投票 0

Hive 命令行参数传递日期字符串对日期进行数学运算

我正在尝试将参数传递给我的 Hive 查询,如下所示: hive --hivevar prev_year_sixmnth_date='2023-01-01' -e '选择 ${hivevar:prev_year_sixmnth_date} 作为 prev_year_sixmnth_date' 我得到结果了...

回答 1 投票 0

Hive 插入表选择无法按预期工作

我创建了一个新表: 像clickstream_v3一样创建表clickstream_v3_test; 然后填充数据: 插入表clickstream_v3_test 从 clickstream_v3 中选择 *,其中 导出日期='2023...

回答 0 投票 0

如何使用SQL进行特定频率的数据采样

我有一个表,其中包含一些带有 Unix 时间戳的值。 数据的频率是可变的,但通常在每分钟一个数据点左右。 我想在没有

回答 1 投票 0

分区语句中Hive中使用hiveconf的问题

在 INSERT INTO 分区表中使用 hive conf 时遇到问题。 下面是我的代码 设置期间 = 202305; 设置 DAY=concat(substr(${hiveconf:PERIOD},1,4),'-',substr(${hiveconf:PERIOD},5,2),'-01'); ...

回答 0 投票 0

使用 Pyspark 的 HIVE JDBC 连接返回列名作为行值

我正在使用 Pyspark 连接到 HIVE 并获取一些数据。问题是它返回所有值为列名的行。它返回正确的列名。只有行值是

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.