hive 相关问题

Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。

转换子查询以获取 MAX 值以加入 Hive

我正在尝试将 presto 查询转换为 Hive 查询,它将从子查询中获取最大值。 Hive 似乎不支持以下查询。 选择 a.id, b.acct_id 来自表_a 内连接

回答 0 投票 0

LateInitializationError 配置单元使用 bloc

======== 小部件库捕获异常 ================================== ===================== 在构建 KeyedSubtree-[GlobalKey#74540] 时抛出了以下 LateError: 延迟初始化呃...

回答 1 投票 0

分区表上的 Hive 索引获取错误

kyc_interfaces_audit 是在 partition_key_1 上分区的分区表 此命令成功运行并创建了索引: 在表 kyc_interfaces_audit 上创建索引 index_interfaces(

回答 0 投票 0

Hive 脚本以 MMM 格式提取月份

如何从日期时间值中提取月份作为 MMM,即。简?我尝试了以下但没有用。我得到的错误是“AnalysisException: default.date_format() unknown for database

回答 2 投票 0

使用 CTE 插入覆盖目录

问题:使用cte时无法在目录中创建文件 我正在尝试使用 CTE 获取值以将文件插入用户目录。我已经能够在目录中成功创建文件......

回答 1 投票 0

镶木地板数据顶部的 Hive 外部表返回 null

我将以下数据以镶木地板格式存储在 HDFS 中。我需要在其上创建一个 HIVE 外部表。 根 |-- ABC:结构(可为空 = 真) | |-- SID:字符串(可为空 = 真) | ...

回答 0 投票 0

使用 SQL 和日内数据计算移动平均线

我正在查询存储在 Hive 数据仓库中的表。 我想计算去年每只股票价格的 5 天滚动平均值。按“组”列分组。挑战...

回答 0 投票 0

spark with hive:连接到本地 metaStore 时出现异常

我在我的 mac(Catalina 10.15.7)中使用 spark(版本 3.2.1)连接配置单元(版本 3.1.2)元存储(本地)时遇到问题。我的 hadoop 和 hive 在我的 mac 中以本地模式运行,它们都工作...

回答 0 投票 0

如何将具有空值的商店的目标值替换为该特定商店所在的市场的目标值?

我有下表,其中包含 store_nbr、market_nbr 和其他详细信息 - 从该表中我们知道特定商店在哪个市场中,它在 market_nbr 中 - 4 表 -

回答 0 投票 0

Hive 镶木地板表 SerdeProperties

如何从现有表中删除 With SerdeProperties。我有 2 个字段 1).field.delim 2).序列化格式 我要么需要将它们设置为默认值,要么取消设置属性。我该如何实现...

回答 0 投票 0

Hive Metastore 容器永远不会启动

我正在构建一个涉及 minio 的 docker-compose 项目,以及一个带有 Postgres 后端的 hive metastore,我的 compose 文件如下所示: 服务: 迷你: 图片:minio/minio:latest 端口: ...

回答 0 投票 0

从 Pyspark Dataframe 获取时间戳值但更改时区

在我的项目中我有一个数据框:像这样 df=spark.read.table(hive_table) df.show() | ts_ingestion |城市 ------------------------------------ | 2023-03-22 12:24:02.342 |纽约 |

回答 0 投票 0

HIVE:中断等待向服务器发送 rpc 请求

在一个线程上连续运行的配置单元日志中,我们每秒都会遇到此警告消息。 中断等待向服务器发送 rpc 请求 然而,配置单元查询执行是快乐的...

回答 0 投票 0

如何同时将数据插入到具有多个 Spark 作业的多个分区 Hive 表中并避免 InsertOperationConflictException?

我想使用多个并行 Spark 作业将多个 CSV 上传到现有的 Hive 表中。每个 CSV 进入一个单独的分区,每个作业将上传一个 CSV。我该怎么做呢? 细节: 我...

回答 0 投票 0

在两个不同引擎的会话中加入 SQLAlchemy 两个表?

我需要使用来自两个不同数据库引擎会话的两个表执行连接查询。 首先是 postgres 表: 类 State_STG(基础): __tablename__ = "gics_cambi_stato_fues"

回答 0 投票 0

Hive hook - apache atlas

我遇到了在 apache atlas 中实现 hive hook 的问题。当我添加 org.apache.atlas.hive.hook.HiveHook 属性时,它给我一个错误,否则(当它被删除时),import-hive.sh 工作 j ...

回答 0 投票 0

查询存储为 Parquet 格式的嵌套模式时出现 AWS Athena 错误

我正在尝试使用 AWS Athena 从 S3 查询数据,其中数据以 Parquet 格式存储。具体来说,我正在尝试创建一个嵌套模式来存储复杂对象的行,生成我们...

回答 0 投票 0

Hive查询:如何将一个表的列赋给另一个表的所有列?

我想合并两个具有不同模式的表。 如下表A, 编号||名称 1、凯 4、1月 6、麦克 如下表B, 地位 得到正式认可的 我想要如下表。 ID||姓名||状态 1,凯,批准 4,一月,

回答 0 投票 0

Hive:Java 异常

我已经安装了Hadoop,HIVE,并且已经安装了MYSQL Server。 我按照这两个链接安装了 Hadoop & Hive。我按照这些链接中提到的那样配置了 .sh,XML 文件,我得到了这个

回答 0 投票 0

在 VScode(Windows)中使用 Pyspark 复制 Talend 中使用的 Hive 连接

我正在尝试从 VScode 中的 Talend 复制 Hive 连接。 talend 中使用的 Hive 连接的详细信息如下所示。 我想在

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.