hive 相关问题

Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。

使用 Athena 的多个 S3 存储桶的库存列表

我正在尝试使用 Athena 查询 AWS S3 库存列表。如果我只有一个源存储桶,我就可以执行此操作。我不确定如何配置它以与多个源存储桶一起使用。 我们正在使用所有

回答 1 投票 0

数据重述

我有一个名为“old_table”的表,它是一个外部表,它有8列,分别是姓名、地点、出生日期、爱好、学校、性别、班级、详细信息。这里的详细信息列是一个结构体数组类型,例如...

回答 1 投票 0

如何为apache Iceberg表选择分区键

我有多个蜂巢仓库。数据驻留在 Amazon S3 中的 parquet 文件中。有些表包含 TB 的数据。目前,在 hive 中,大多数表都是按月份和...

回答 1 投票 0

如何快速遍历Iceberg中一张非常大的表

我有一个关于查询大表的问题。 我们有一个 Hive 表,总共有 360 万条记录,每条记录有 120 个字段。我们想将该表中的所有记录传输到其他数据库...

回答 1 投票 0

从 pyspark 将表描述添加到 Iceberg 表

我能够使用 trino 将表注释添加到 Iceberg 表中,使用以下 trino 命令: 表iceberg.table_schema.table_name 上的评论是“我的评论” 也可以从 p...

回答 1 投票 0

如果元素包含hive/SparkSQL中指定的字符串,则过滤掉数组元素

我有如下所示的示例数据,我想提取仅具有名称及其完整键而不是 dep_names 及其完整键的元素。 我正在尝试像下面这样的东西, 与数据集AS ( S...

回答 1 投票 0

HIVE SQL - 根据查询中的日期提取最大或最后一条记录

在此处输入图像描述我有一个应用程序表,我可以查询一些结果。在该表中,根据开始日期和结束日期,每个应用程序都有多个记录。 我需要重新启动...

回答 1 投票 0

如何在本地使用 Hive Metastore 运行 Apache Flink 来测试 Apache Iceberg

我想摆弄一下 Apache Flink 和 Apache Iceberg,并在本地计算机上进行测试。我通读了文档,但我仍然不确定必须在本地设置什么...

回答 1 投票 0

Spark SQL 中的 JSON 爆炸(将所有键转换为列)

我有如下数据。我希望所有键都转换为列(表结构由与 json 键相同的列组成)。我希望所有值都反映在行中。 使用数据集 AS ( 选择...

回答 1 投票 0

Airflow HiveOperator 结果集

我是 Airflow 和 Python 的新手,我正在尝试配置计划报告。该报告需要从 Hive 中提取数据并通过电子邮件发送结果。 到目前为止我的代码: 从日期时间导入日期时间,

回答 1 投票 0

org.apache.spark.sql.catalyst.parser.ParseException:不匹配的输入“来自”期望<EOF>

我在 pyspark sql 中遇到以下错误。 org.apache.spark.sql.catalyst.parser.ParseException: 输入“来自”期望不匹配(第 9 行,位置 4) 选择a.appl_sta, a.appl_pcnvendorcode, a.

回答 1 投票 0

kubernetes 气流 hive 操作员错误:[Errno 13] 权限被拒绝:'hive';

我在尝试使用 Kubernetes Executor 在 Apache Airflow 中运行 HiveOperator 任务时遇到问题。 我有一个 Dockerfile,在其中安装了必要的依赖项,包括 apache-

回答 1 投票 0

合并到更新/插入

我在合并到databricks笔记本中的大量数据集时遇到问题。 如何将合并转换为脚本来更新/插入? 目标表 = f""" 合并到 {

回答 1 投票 0

使用 HIVE 查询解析 json 数组

我将 json 数组存储在表(jt)中,如下所示: [{"col": 1, "row": 1, "code": "INVESTMENT_PERIOD", "name": "Thời gian đầu tư&...

回答 1 投票 0

无法使用 Airflow 2.1.2 DAG 中的 HiveOperator 连接到 Hive

我一直在努力从 HiveOperator 任务运行 Hive 查询。 Hive 和 Airflow 安装在 docker 容器中,我可以从 Airflow 容器中的 python 代码查询 Hive 表...

回答 2 投票 0

看不到 Hive 上的表

我是新人,我正在学习教程,所以我可能会提供一些不必要的信息。我使用 beeline 连接到 hive。然后我使用以下命令创建了一个名为“adv_sales_gt_20”的表...

回答 1 投票 0

Hive 窗口按日期回顾

我有下表 日期 姓名 2024-02-01 卢克 2024-02-01 爱丽丝 2024-02-01 约翰 2024-02-01 约翰 2024-02-02 标记 2024-02-02 爱丽丝 2024-02-02 标记 2024-02-03 约翰 2024-02-03 约翰 2024-...

回答 1 投票 0

如何向现有的 Hive 外部表添加列?

创建外部表可降级( 第 1 列字符串, 第 2 列字符串, 第 3 列字符串) 行格式分隔字段以“|”结尾 位置“/数据/可降级”; 我创建外部表“可降级”并且...

回答 2 投票 0

在 hive 上读取 zst 文件时出现未知的帧描述符?

我有一个文件a.csv.zst并且我创建了文本文件表。 当我在 hive 上选择时,我看到前 100 行没有错误,但是当我选择 count(*) 时,它给出错误未知帧描述符 我可以装饰...

回答 1 投票 0

如何在hql文件中传递/读取hiveconfs变量

使用 hive 操作符并传递 hql 文件在气流中运行 hql 文件 hive_task = HiveOperator( task_id='run_hql', hql='/path/to/your_query.hql', hive_conn_id='your_hive_connection_id',

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.