hive 相关问题

Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。

像 Hive 的 LATERAL VIEW STACK 这样的 unpivoting 数据,Snowflake 的替代品是什么?

我需要将 Hive 的 SQL 版本移植到 Snowflake。 hive脚本由LATERAL VIEW STACK()函数组成。我如何取消在雪花上使用别名的多列?我提供了一个前...

回答 1 投票 0

如何在预置环境中安装 Delta Lake

我已经配置了 Hadoop 3 和 Apache Spark 3.4,它们工作正常。 现在我正尝试使用前面提到的软件在 Ubuntu 上安装 Delta Lake。 https://Delta.io 网站不是

回答 0 投票 0

一系列的条件窗口函数

我正在努力按日期获取一系列(连续)订单的平均值。直接向您展示会更容易: 登录 Week_date Active_Streak Inactive_Streak 数量 美国广播公司 2022/01/19 1个 0 4个 美国广播公司...

回答 2 投票 0

Hive 中的 datediff 导致 Invalid number of arguments 错误

我正在尝试使用 Hive 中的 lead 和 datediff 函数以秒为单位查找登录开始时间、登录结束时间和在网页上花费的总时间。 示例数据集: ID 登录时间 1个 2023-05-03 00:20:3...

回答 1 投票 0

如何在 hive 中使用 array_contains

我有一个蜂巢查询 SELECT * FROM table_a WHERE array_contains(['2019-05-17','2019-04-20'],日期) 我一直收到错误提示 无法识别附近的'['

回答 2 投票 0

带 MAX 且不带 group by 的条件聚合

所以我有一个数据质量检查查询,其中有一个名为 RunNumber 的字段,用于标识是否\何时附加数据。它的值可以是 1 或 2,但不仅限于 2。我不能使用 B 组...

回答 0 投票 0

Hive:用分隔符分隔 STRING

我必须将 STRING 值除以“.”分隔符分为两个值。像这样: 输入: 变量0 9342102124501.0000001236 输出: 变种1 变量2 9342102124501 0000001236 我知道这很容易,...

回答 2 投票 0

查询在 Spark Submit 中运行不正常,但在 Hive 中运行良好

查询在 Hive 中运行良好,但在从 Spark 提交命令运行相同的 Hive 查询时,它无法填充提供空数据而不是实际记录的所有列。 无法加载...

回答 0 投票 0

如何在Flutter中使用GoogleDriveApi上传和下载Hive文件?

我正在开发 Flutter 应用程序,我想使用 GoogleDriveAPI 向/从 GoogleDrive 上传和下载配置单元文件。我不确定如何进行文件上传和下载过程。谁能提供

回答 0 投票 0

我在hive中创建了一张表,请问我的表是在哪个目录下创建的?

我在hive中创建了一张表,我想知道我的表是在哪个目录下创建的?我想知道路径...

回答 10 投票 0

查询在 Spark 提交中运行不正常,但在 hive 中运行良好

查询在配置单元中运行良好,但在从 spark 提交命令运行相同的配置单元查询时,它无法填充所有列并提供空数据而不是实际记录。 无法加载数据...

回答 0 投票 0

我需要一个逻辑来连接两个表和一个表记录与上一个财政年度记录

例如我的第一个表如下: 表A |rep|year|month|FLAG| |---|----|-----|----| |ABC|2022|3 |D | 第二张表如下: 表B |rep|year|month|FLAG| |---|----|-----|---...

回答 0 投票 0

从没有 kerberos 的服务器连接到 MIT kerberos 认证的 cloudera hadoop 服务器中的配置单元

我想连接到 MIT kerberos 认证的 cloudera hadoop 服务器中的配置单元服务。我正在使用托管在未安装 kerberos 的 Windows 服务器上的 Python 脚本。我用的是

回答 1 投票 0

如何获取每个任务的开始和结束时间?

如何通过SQL代码中的每个emp获取每个任务的开始和结束时间。 emp_id 任务时间戳 100 一个 15/04/2023 02:01 100 一个 15/04/2023 02:06 100 一个 15/04/2023 02:17 100 B 15/04/2023 02:2...

回答 0 投票 0

Apache Hive Jdbc 与 selenium java 的连接

我正在尝试将 Apache hive jdbc 与 selenium java 连接 我编写连接方法时出现以下错误

回答 0 投票 0

flink向hive写入数据insert overwrite时出错

我需要建立一个离线仓库,所以我使用了flink和hive。使用partition overwrite insert into hive时报错。 com.py.project.tproc.data.common.exception.BigDataRuntimeExc...

回答 0 投票 0

ROW_NUMBER 或其他序列取决于日期 (SQL)

我在使用 row_number 创建序列时遇到问题,但仍然无法处理。 我有一张桌子 公元前 IO 日期 1a 11 2022-01-01 1a 11 2022-01-02 1a 12 2022-01-03 1a 11 2022-01-04 当我使用 sim 时...

回答 2 投票 0

在 spark 中使用自定义模式读取 json 文件不返回结果

我是 emr/hdfs/hive/spark 世界的新手。我有一组大型 json 文件(每个文件 > 50GB),我试图加载这些文件以查询特定的键。 json 有一个标准布局...

回答 0 投票 0

在 Flutter 的聊天室应用中,我应该使用哪个本地数据库(hive 或 sqlite)?

我有带私人聊天、频道和群组选项的聊天室应用程序。 我想在本地保存、更新、删除数据。 女巫数据库配置单元(无 SQL)或 sqlite 以获得更好的应用程序? 感谢帮助

回答 2 投票 0

每个月过去 3 个月的汇总滚动总数

ID 日期 成本 1个 202201 100 1个 202112 50 1个 202111 70 1个 202110 120 1个 202110 5个 所需输出:前 3 个月总计的总和 ID 日期 成本 滚动3个月 1个 202201 100 220 1个 202112 50 240 1个

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.