我已经设置了databricks运行5.1版集群(包括Apache的星火2.4.0,斯卡拉2.11)和Python 3,我还装Hadoop的蔚蓝库(Hadoop的蔚3.2.0)群集。
我试图读取存储在我的Blob存储帐户的blob这仅仅是含有例如空格分隔一些数字数据的文本文件。我使用databricks生成的模板读取BLOB数据
spark.conf.set(
"fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
storage_account_access_key)
df = spark.read.format(file_type).option("inferSchema", "true").load(file_location)
其中file_location是我的BLOB文件(https://xxxxxxxxxx.blob.core.windows.net)。
我得到以下错误:
没有文件系统,称为HTTPS
我试着用sc.textFile(file_location)在RDD阅读并得到同样的错误。
你file_location应采用以下格式:
"wasbs://<your-container-name>@<your-storage-account-name>.blob.core.windows.net/<your-directory-name>"
请参阅:https://docs.databricks.com/spark/latest/data-sources/azure/azure-storage.html
您需要安装与外部位置通过Azure的Databricks访问它的斑点。