如何从运行pyspark的IBM Jupyter笔记本使用stocator?

问题描述 投票:0回答:2

我想使用Stocator从运行pyspark的Jupyter笔记本(在IBM Watson Studio上)访问IBM云存储。有人可以告诉我该怎么做吗?

我了解到stocator已预先安装,但是您是否必须首先从笔记本中放入凭据或设置(如果我要访问的COS上有特定存储桶,]]

例如我有一个存储桶名称:my-bucket

我如何使用它?

我知道我可以使用ibm_boto3直接访问COS,但这是针对spark应用程序的,因此我需要能够通过stocator进行此操作。

我想使用Stocator从运行pyspark的Jupyter笔记本(在IBM Watson Studio上)访问IBM云存储。有人可以告诉我该怎么做吗?我了解Stocator是pre -...

jupyter-notebook ibm-cloud ibm-watson watson-studio stocator
2个回答
0
投票

您所需要做的就是为spark设置hadoop配置参数,然后您应该能够将数据帧作为csv写入COS存储桶中。确保您使用的凭据确实具有对COS存储桶的写入者或更高的IAM访问权限。

hconf = sc._jsc.hadoopConfiguration()
hconf.set("fs.cos.servicename.iam.api.key", "**********")
hconf.set("fs.cos.servicename.endpoint", "<BUCKET_ENDPOINT>")
df.write.format("csv").save("cos://<bucket>.myservice/filename.csv")

0
投票

好,要使其在我的情况下正常工作,我还必须添加访问密钥,此外,您还必须确保正确使用了适用于您的服务名称,但在所有情况下都应相同您使用它。

© www.soinside.com 2019 - 2024. All rights reserved.