不允许使用EMR Master SSH

Question

要运行Scala spark作业并运行spark shell查询......我一直在进入EMR的Masternode，现在负责管理云的团队不允许我SSH到EMR masternode。可以利用哪些替代模式？

Answer 1

如果云团队很乐意允许访问它，那么Zeppelin是您最好的。

%spark解释器几乎是spark-shell在笔记本的段落中运行。

它还默认导入spark.sql，SparkContext等重要内容，因此您无需导入任何内容，只需运行代码，例如：

%spark
val myDf = spark.sql(“select * from table”)
myDf.limit(10).show()

val myOtherDf = spark.read.csv(“s3://bucket/key/object.csv”)
myOtherDf.limit(10).show()

（spark-shell也可以这样做，但我不会用它来了解手）

由于Zeppelin实际上是在Spark Master节点上运行，你甚至可以使用shell解释器%sh访问主节点的os，例如：

%sh
ls /
aws s3 cp s3://mybucket/myfile /

虽然您的访问权限当然取决于操作系统权限。

请注意，一旦您杀死群集，您的笔记本也将消失！请务必尽可能下载。

不允许使用EMR Master SSH

问题描述投票：0回答：1

1个回答

最新问题

不允许使用EMR Master SSH

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1