我试图从CDH 6个社区版本的远程计算机上运行,从一个简单的Java mllib功能(fpgrowth)。
默认我试图连接是这样的:
`SparkConf conf = new SparkConf().setAppName("FPGrowth").setMaster("spark://some ip:7077").set("spark.cores.max", "10");`
但连接失败,我还检查netstat的-plnt并没有程序上的监听端口7077。
有没有连接上CDH 6 sparkcontext一种新的方式?我猜现在是集成在纱线,但我应该如何连接到T和做出sparkcontext?
谢谢
从本地模式到星火集群模式的切换是不幸的是不容易,但它是一个证据充分的过程。您还必须确保您的文件(如果你使用任何)从每个群集的执行节点的访问,由可能将它们放入HDFS。
你必须首先确保Hadoop的客户机正在运行的代码的机器上配置,然后就可以执行代码。
通常情况下,你会使用spark-submit
为:
$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
--queue thequeue \
examples/jars/spark-examples*.jar \
10
但你也应该能够像执行它:
SparkSession spark = SparkSession.builder()
.appName("app")
.master("yarn")
.getOrCreate();
https://spark.apache.org/docs/latest/running-on-yarn.html:你会发现更多的细节。