hive 相关问题

Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。

颤振错误。未处理的异常:HiveError:无法写入,未知类型:设置。您是否忘记注册适配器?

我正在开发一个应用程序,需要在设置窗口中本地保存用户指标。我决定使用 Hive 来实现这个目的。生成并注册适配器。我打开了...

回答 1 投票 0

如何在 Hive 中存储类列表?

我有一个项目列表,是通过模型类从 api 获取的。现在我想将列表与其他一些属性一起保存在配置单元中,例如客户名称、客户地址和显然 itemsList。 导入'包:

回答 1 投票 0

使用 JsonSerDe 时找不到启动令牌错误

我正在尝试从S3导入JSON数据,并在进行一些查询后,再次将输出以JSON格式导出到S3。但是,我得到“org.apache.hadoop.hive.serde2.SerDeException:java.io。

回答 3 投票 0

将TO_CHAR、IS_DATE转换为hive查询

我想将特定数据转换到Hive。 但是,Oracle 中提供的功能无法在 Hive 中使用。我该如何解决这个问题? 应用的转换规则如下。 解码(TRUE,IS_DATE(TO_CHAR(

回答 2 投票 0

使用 Spark 或 Hive 将 Hive 列中的字符串转换为 Array[Int]

我在 Hive 表中有如下字符串格式的示例数据 +----------------------+ | 第 1 列 | +----------------------+ | 160-80-40 秒| | 160-80-40 秒| | 10-10-10-20...

回答 1 投票 0

从kafka读取数据并写入hadoop/hbase/hive/spark堆栈批量处理

我有一个技术堆栈,其中 Hadoop 作为原始数据的分布式存储,HBase 作为在 Hadoop 和 HDFS 之上运行的 NoSQL 数据库,Hive 作为 Hive 之上的 RDBMS 数据仓库,用于应用程序...

回答 1 投票 0

优化查找每年最大值、字符串、属性

如何按情景获取每年的行,这些行与每年的最新情景相关联,同时最多是前一个月(也存在未来预算和预测情景) 菲尔...

回答 1 投票 0

在 HDFS 上写入会弄乱数据

我试图将 Hive 查询的输出保存在 HDFS 上,但数据发生了更改。任何想法? 请参阅下面的数据和更改后的数据。 删除文件名前的空格:) 正确的: 乱七八糟:

回答 1 投票 0

将数据推送到 Impala 时,错误包含不支持写入的分区格式:“ORC”

所以我想通过以下方式将我的 pandas dataframe 格式化表推送到 Impala 数据库: IMPALA_HOST = os.getenv('172.16.16.10') conn = 连接(主机=host_impala,端口=21050) 光标 = conn.cursor() def Push_h...

回答 1 投票 0

我们可以使用多个sparksessions来访问两个不同的Hive服务器吗

我有一个场景来比较来自两个单独的远程配置单元服务器的两个不同的表源和目标,我们是否可以使用两个 SparkSession,就像我在下面尝试的那样:- 瓦尔火花 =

回答 3 投票 0

Docker - Hive 出现 Postgres 错误

我已经设置了三个联网的容器,因为我想将 Hadoop 和 Hive 与 PostgreSQL 一起使用。您可以通过 https://github.com/jcool12/hadoop-docker/tree/main/hi... 访问 Docker 设置

回答 1 投票 0

无需停机即可覆盖 Hive 表

我有一个与 HDFS 路径关联的配置单元表。该表被定期作业覆盖,并且有一些下游消费者。该表在被覆盖时会被删除,并且如果出现

回答 1 投票 0

将注释修改到Databricks上的Spark表中

如何修改与 Spark 表关联的注释,例如: ALTER TABLE 表 CHANGE 列 1 列 1 VARCHAR COMMENT“一些注释” 但对于评论表的描述。 谢谢!

回答 3 投票 0

Docker Hive - /entrypoint.sh:第 4 行:pg_isready:找不到命令

我已经设置了三个联网的容器,因为我想将 Hadoop 和 Hive 与 PostgreSQL 一起使用。您可以通过 https://github.com/jcool12/hadoop-docker/tree/main/hi 访问设置的 docker...

回答 1 投票 0

Athena - 创建字段名称与镶木地板列名称不同的外部表

我正在尝试使用 Athena 创建外部表。正在读取的数据格式为镶木地板,我的外部表脚本是: 如果不存在则创建外部表 my_table ( 一个字符串, ...

回答 1 投票 0

Spark-ThriftServer 阻止 Spark SQL 运行

问题发生在我的本地环境中,我使用 docker compose 来编排 hadoop、hive、spark 和 airflow 在不同的服务/容器中运行。我已经简化了这里的设置所以...

回答 1 投票 0

如何使用 JDBC 和 SSL 连接远程 Hive 服务器?

我有以下 Hive 的 JDBC URL,我可以从 Beeline 连接。我想知道如何使用 Python 连接到同一 Hive 服务器。 下面是我从 Beeline 使用的命令来连接到...

回答 1 投票 0

分解列中包含空数组的 hive 表

我有一个下表,有 5 列。 CLASS 列包含带有空数组的数据。 钥匙 到达 载体 班级 离开 50B1AE7A0C1BF0001521CEE [“2024-02-15T11:35:00.000+08:00”,&quo...

回答 1 投票 0

蜂巢中按组划分的基尼系数

我有一个包含三列组、人、分数的表格,我想计算每组分数的基尼系数。这样我就可以根据分数来衡量人的不平等是什么...

回答 1 投票 0

在长时间运行的 Hive 插入查询期间“TSocket 读取 0 个字节”

我正在使用 PyHive 0.6.1 在 Hive 中运行一个较长的插入查询,但它因 thrift.transport.TTransport.TTransportException 失败:运行大约 5 分钟后,TSocket 读取了 0 个字节。在服务器上...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.