我在 python Spark 脚本中定义 H2OContext 时遇到错误

问题描述 投票:0回答:1

代码:

from pyspark.sql import SparkSession
from pysparkling import *

hc = H2OContext.getOrCreate()

我正在使用spark独立集群3.2.1并尝试在python文件中启动H2OContext。在尝试使用 Spark-submit 运行脚本时,我收到以下错误:

hc = H2OContext.getOrCreate() NameError: name 'H2OContext' is not defined

Spark-提交命令:

spark-submit --master Spark://local:7077 --packages ai.h2o:sparkling-water-package_2.12:3.36.1.3-1-3.2 Spark_h20/h2o.py

python apache-spark h2o sparkling-water h2o.ai
1个回答
1
投票

参数

--packages ai.h2o:sparkling-water-package_2.12:3.36.1.3-1-3.2
从 Maven 下载 jar 工件。该工件只能用于 Scala/Java。我发现苏打水文档中有一个错误。

如果你想使用Python API,你需要:

  • 此位置
  • 下载 SW zip 存档
  • 解压压缩包并进入解压后的文件夹
  • 使用命令
    spark-submit --master spark://local:7077 --py-files py/h2o_pysparkling_3.2-3.36.1.3-1-3.2.zip spark_h20/h2o.py
    将脚本提交到集群。
© www.soinside.com 2019 - 2024. All rights reserved.