hive 相关问题

Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。

如何在Hive中调用shell脚本

如何从 Hive 调用 shell 脚本?我对此进行了探索,发现我们必须使用 source FILE 命令从 hive 调用 shell 脚本。 我该怎么做?

回答 3 投票 0

多次行动会引发失败

我是 Spark 新手。 我在将 df 保存到 Hive 表的部分遇到了一些问题。 def insert_into_hive_table(df: DataFrame, table_name: str): # 用于调试 - 此操作正在运行...

回答 1 投票 0

presto支持对hive表插入覆盖吗?

我正在尝试将数据插入分区表中。我正在使用 PrestoSqlOperator (airflow DAG) 运行 presto/trino SQL 查询。 我可以使用命令将数据插入表中 插入表中......

回答 1 投票 0

请解释下面代码中的 MIN 和 STRUCT 的用途是什么。 HiveQL 中的 case 语句中可以添加 MIN 吗?

我新加入了一个组织,我在理解下面的代码时遇到困难。可以将 min 添加到 case 语句中。 struct 这里的作用是什么? 案例最小值(如果(突破标志= 1,

回答 1 投票 0

如何在 hive 中重置并计算运行总和?

我遇到了一个问题,我想对值进行运行求和,但是将阈值设置为 sum = 100,即当总和超过 100 时,我们从 0 开始求和,例如对于这样的数据:

回答 1 投票 0

如何将公共 s3 url 加载到 putty 终端

我正在尝试在 putty 终端上传提供给我的 s3 链接 https://ml-cloud-dataset.s3.amazonaws.com/Airlines_data.txt 。这样我就可以在配置单元中创建表并将数据集加载到其中。 我尝试过

回答 1 投票 0

在 AWS EMR 中运行 Spark sql 查询

我设置了一个 AWS EMR 集群。 我选择了emr-6.0.0。 所选的应用程序是: Spark:Hadoop 3.2.1 YARN 上的 Spark 2.4.4 以及 Ganglia 3.7.2 和 Zeppelin 0.9.0-SNAPSHOT 之后我创建了一个ju...

回答 1 投票 0

如何将Spark RDD保存到本地文件系统

我可以使用 saveAsTextFile 语法将文件保存到本地系统吗? 这就是我编写保存文件的语法的方式:insert_df.rdd.saveAsTextFile("") 当我尝试做的时候

回答 2 投票 0

在 Spark-SQL(在 Hive 上)中避免 SQL 注入的首选方法是什么

假设 SchemaRDD rdd 具有已注册的表 customer。您想要根据用户输入过滤掉记录。您可能知道如何执行此操作的一个想法如下: rdd.sqlContext.sql(s"SEL...

回答 3 投票 0

在 Flutter Hive 中按索引删除多个项目

我正在用 hive 和 flutter 构建一辆购物车。 我想选择多个商品,然后使用索引从购物车中删除!因为可能有 2 个商品具有相同的标题,但尺寸或数量不同。 蜂巢...

回答 1 投票 0

如何读取hive ACID ORC表转储

我尝试使用 pyspark 和 hive 读取 hive ACID ORC 表转储文件。 转储文件架构如下。 结构< operation: int, originalTransaction: bigInt, bucket: int, rowId: bigInt,

回答 0 投票 0

如何在hive中添加多级分区?

我在配置单元中有客户管理的表,根据日期和客户名称进行分区。我的目录结构如下: 用户/hive/warehouse/test.db/customer/date1=2021-09-16/customerName=xyz w...

回答 1 投票 0

如何找到 Hive 中表的上次修改时间戳?

我正在尝试获取 Hive 中表的最后修改时间戳。

回答 8 投票 0

json 结构类型加载到 hive

我有一个如下所示的json文件,并尝试从交易中获取first_name.. json文件: {"transNo_1":{"dataset1":{"first_name":"Ram1","last_name&q...

回答 0 投票 0

Apache Spark 和 Hive

23/07/27 15:29:10 错误spark.SparkTask:无法执行spark任务,异常'org.apache.hadoop.hive.ql.metadata.HiveException(无法为Spark会话079f6c36创建Spark客户端-395f...

回答 0 投票 0

如果其中一个值与 org.apache.hadoop.hive.serde2.OpenCSVSerde AWS Athena 中的相应列类型不匹配,如何跳过读取行?

我在 Athena 中创建了一个表,该表使用以下查询从 S3 文件夹内的 gziped csv 文件获取数据: 如果不存在,则创建外部表 `mydatabase`.`mytable` ( `messageId` st...

回答 1 投票 0

regexp_replace 替换字符串后面的第一个匹配项,并返回完整字符串

我有一个字符串,上面写着“不要替换此文本,而是替换最后一个文本<-- this one". I want to replace the first match from the back of the string, and return the full ...

回答 1 投票 0

蜂巢分裂双##

我的字符串是[xxxxxxxx##yyyyyyyy##zzzzzz]。我想用双 ## 来分割它。 hive 中的 split(str, '##') 返回空。图案怎么样?

回答 0 投票 0

如何删除带分区的hive表中的重复数据?

必须删除2023-03-26至2023-07-10之间的重复数据。 我尝试使用此命令从表中删除重复项,但出现错误。 命令: 设置 hive.exec.dynamic.partit...

回答 1 投票 0

ParseException 第 13:211 行无法识别表达式规范中 '(' 'SELECT' 'a' 附近的输入 (state=42000,code=40000)

我将 Vertica 查询转换为 HIVE 以在 hive 上创建视图。这是以下查询: 创建视图 db_metadata.vw_gensql_webmddev_staging AS 选择a.sql_order, 一个.sql, a.posn, ...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.