Cloudrea 升级后 HIVE 中数据摄取的 Pyspark 错误

问题描述 投票:0回答:0

最近我们的组织将数据湖从 CLoudera CDH6 升级到 CDP7。升级前执行良好的 3-4 个脚本现在正在抛出错误。并且所有错误都是由于同一行而发生的:

File "/pkg/lxp0bigd/cmt/script/cmt_fraud.py", line 80, in <module> df.coalesce(2).write.mode("append").insertInto("%s.%s"% (db, target_table))

错误是:

Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, lxpbb06.arbella.com, executor 2): java.lang.NumberFormatException: For input string: "short_user_id" at java.base/java.lang.NumberFormatException.forInputString(NumberFormatException.java:65) at java.base/java.lang.Integer.parseInt(Integer.java:652)

不确定发生了什么,尝试了很多东西,检查了原始文件。一切似乎都很好。

需要一些帮助/帮助。 谢谢

pyspark hive bigdata cloudera-cdh cloudera-cdp
© www.soinside.com 2019 - 2024. All rights reserved.