影响版本:2.3.2 组件:PySpark、Spark Core、Spark Shell 标签:JSON 外部表 hive Spark 环境:hdp 3.1.4
hive-hcatalog-core-3.1.0.3.1.4.0-315.jar 和 hive-hcatalog-core-3.1.2 我都尝试过
描述 我使用 hdfs 文件创建一个外部 hive 表,该文件格式为 json 字符串。
我可以借助 org.apache.hive.hcatalog.data.JsonSerDe 读取此 hive 表的数据字段,该文件打包在 hive shell 中的 hive-hcatalog-core.jar 中。
但是当我尝试使用 Spark(pyspark、spark-shell 或其他)时,我只是无法读取它。
它给了我一个错误表:无法从 serde 获取字段:org.apache.hive.hcatalog.data.JsonSerDe
我已经将jar(hive-hcatalog-core.jar)复制到$spark_home/jars和yarn libs并重新运行,没有效果,甚至使用--jars $jar_path/hive-hcatalog-core.jar。但是当我浏览spark任务的网页,居然可以在env列表中找到jar包。
问题解决了吗?当我使用 hive jdbc 存储处理程序创建 hive 外部表来映射 mysql 表时,我遇到了类似的错误,如果您解决了问题,您能给出答案吗?