我在不同的主机上有气流和火花。我正在尝试提交,但出现以下错误:
{standard_task_runner.py:107} 错误 - 无法执行任务 Spark_job 的作业 223(无法执行:spark-submit --master Spark://spark-host --proxy-user hdfs --name arrow-spark --queue默认 --deploy-mode client /opt/airflow/dags/plugins/plug_code.py. 错误代码为:1.; 27605)
Spark-提交cmd:
spark-submit --master spark://spark-host --name arrow-spark --queue default --deploy-mode client /opt/airflow/dags/plugins/plug_code.py
我尝试使用代理名称,但没有意义。
尝试使用以下命令和选项:
--master
:指定要连接的 Spark 集群的 URL。在这种情况下,它是spark://spark-host
。--name
:指定 Spark 应用程序的名称。在这种情况下,它是arrow-spark
。--queue
:指定应用程序应提交到的YARN队列的名称。在这种情况下,它是default
。--deploy-mode
:指定是将驱动程序部署在工作节点上(cluster
)还是作为外部客户端部署在本地(client
)。在这种情况下,它是client
。/opt/airflow/dags/plugins/plug_code.py
:指定包含Spark作业代码的Python文件的路径。您之前提供的错误消息表明
spark-submit
命令无法执行,错误代码为 1。这可能是由于多种原因造成的,例如命令语法不正确、缺少依赖项或 Airflow 与 Spark 主机之间的连接问题.
要解决此问题,我建议检查以下内容:
spark-submit
命令,并且该命令的路径是否已添加到 PATH 环境变量中。spark-host
是否可从 Airflow 主机访问。您可以尝试从 Airflow 主机 ping spark-host
以验证连接。/opt/airflow/dags/plugins/plug_code.py
) 的 Python 文件,以及是否安装了必要的依赖项。