我正在用Apache齐柏林飞艇和hadoop运行Spark。我的理解是Zeppelin就像一个kube应用程序,它将命令发送到运行Spark并通过Hadoop访问文件的远程计算机。
我经常遇到Spark上下文停止的情况。过去,我认为这是因为我因需要大量数据的数据提取而使系统过载,但现在我对这种理论不那么热衷。在运行完全合理和正常的查询后,我经常发生这种情况。
为了重新启动Spark上下文,我进入了解释器绑定设置并重新启动了Spark。
我也运行过此命令
%python
JSESSIONID="09123q-23se-12ae-23e23-dwtl12312
YOURFOLDERNAME="[myname]"
import requests
import json
cookies = {"JSESSIONID": JSESSIONID}
notebook_response = requests.get('http://localhost:8890/api/notebook/jobmanager', cookies=cookies)
body = json.loads(notebook_response.text)["body"]["jobs"]
notebook_ids = [(note["noteId"]) for note in body if note.get("interpreter") == "spark" and YOURFOLDERNAME in note.get("noteName", "")]
for note_id in notebook_ids:
requests.put("http://localhost:8890/api/interpreter/setting/restart/spark", data=json.dumps({"noteId": note_id}), cookies=cookies)
我也去了运行spark的机器,输入了yarn top
,但我的用户名未在正在运行的应用程序列表中列出。
[我知道,如果重新启动计算机,我可以使它正常工作,但是使用它的其他所有人也会重新启动计算机。
我还可以通过哪些其他方式重新启动Spark上下文?