如何在AWS EC2上安装spark客户端,哪里将火花作业提交给具有集群工作节点的EMR主节点?
能否请您指出上述架构中的文档配置spark。
您可以在https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-launch.html上查看AWS EMR文档以获取更多详细信息
我使用以下命令使用AWS CLI启动AWS EMR集群
aws emr create-cluster --release-label emr-5.10.0 \
--name 'My Cluster' \
--applications Name=Hadoop Name=Spark \
--service-role EMR_DefaultRole \
--ec2-attributes KeyName=<my_key_file_name> \
--instance-groups Name=MASTER,InstanceGroupType=MASTER,InstanceCount=1,InstanceType=r4.2xlarge Name=CORE,InstanceGroupType=CORE,InstanceCount=4,InstanceType=r4.xlarge Name=TASK,InstanceGroupType=TASK,InstanceCount=25,InstanceType=r4.xlarge,BidPrice=0.10 \
--region us-east-2 \
--log-uri 's3n://cv-e2deep-emr/emr-logs/' \
--use-default-roles \
--enable-debugging
您可以将spark作业作为step
添加到群集中。每当AWS完成集群设置时,它都会触发该spark作业。
查看文档https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-submit-step.html
步骤如下所示:
--steps Type=Spark,Name="Spark Program",ActionOnFailure=CONTINUE,Args=[--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/lib/spark-examples.jar,10]
有关完整信息,请查看文档:
https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark.html