无法读取 Spark 上的外部 Hive 表

问题描述 投票:0回答:1

影响版本:2.3.2 组件:PySpark、Spark Core、Spark Shell 标签:JSON 外部表 hive Spark 环境:hdp 3.1.4

hive-hcatalog-core-3.1.0.3.1.4.0-315.jar 和 hive-hcatalog-core-3.1.2 我都尝试过

描述 我使用 hdfs 文件创建一个外部 hive 表,该文件格式为 json 字符串。

我可以借助 org.apache.hive.hcatalog.data.JsonSerDe 读取此 hive 表的数据字段,该文件打包在 hive shell 中的 hive-hcatalog-core.jar 中。

但是当我尝试使用 Spark(pyspark、spark-shell 或其他)时,我只是无法读取它。

它给了我一个错误表:无法从 serde 获取字段:org.apache.hive.hcatalog.data.JsonSerDe

我已经将jar(hive-hcatalog-core.jar)复制到$spark_home/jars和yarn libs并重新运行,没有效果,甚至使用--jars $jar_path/hive-hcatalog-core.jar。但是当我浏览spark任务的网页,居然可以在env列表中找到jar包。

java apache-spark hadoop pyspark hive
1个回答
0
投票

问题解决了吗?当我使用 hive jdbc 存储处理程序创建 hive 外部表来映射 mysql 表时,我遇到了类似的错误,如果您解决了问题,您能给出答案吗?

© www.soinside.com 2019 - 2024. All rights reserved.