我目前正在尝试使用pyspark解释器和python 3.7.3在Zeppelin(0.8.1)笔记本中生成可视化效果。
用seaborn(0.9.0)生成下面的简单图大约需要5分钟(在整个过程中CPU使用率很高:]
%pyspark
import seaborn as sns
import numpy as np
import pandas as pd
data = pd.DataFrame(np.random.rand(100,3))
sns.pairplot(data)
此行为是相当不一致的,因为立即绘制了以下(需要更多的数据)绘图]
%pyspark import seaborn as sns import numpy as np import pandas as pd df = pd.DataFrame(data = np.random.rand(10000,2)) sns.lineplot(x = 0, y = 1, data = df)
[我注意到使用matplotlib(3.1.0)的速度通常比使用jupyter笔记本计算机时快得多,而且几乎与我以前一样快。
我已经阅读过有关问题ZEPPELIN-1894的信息,但我也可以立即绘制所提到的散点图。
我目前正在尝试使用pyspark解释器和python 3.7.3在Zeppelin(0.8.1)笔记本中生成可视化效果。使用seaborn(0.9.0)生成以下简单情节大约需要...
好,发布here后,解决方案是使用%spark.ipyspark
解释器,这可能需要安装其他软件包: