如何将Spark结构化流连接到来自Azure Data Lake Storage Gen2或Blob存储的Blob /文件创建事件

问题描述 投票:-1回答:1

我是Spark结构化流及其概念的新手。在阅读Azure HDInsight群集here的文档时,提到结构化流应用程序在HDInsight群集上运行,并连接到.. Azure存储或Azure Data Lake Storage的流数据。我正在研究如何开始使用流技术来侦听来自存储或ADLS的新文件创建的事件。 spark documentation确实提供了一个示例,但是我正在寻找如何将流与blob /文件创建事件联系在一起,以便可以将文件内容存储在我的spark作业的队列中。如果有人可以帮助我,那就太好了。

apache-spark azure-storage spark-structured-streaming hdinsight azure-data-lake-gen2
1个回答
0
投票

很乐意为您提供帮助,但是您可以更精确地满足要求。是的,您可以在Azure HDInsight上运行Spark结构化流作业。基本上将天蓝色的Blob存储安装到群集,然后您可以直接读取Blob中的可用数据。

val df = spark.read.option("multiLine", true).json("PATH OF BLOB")
© www.soinside.com 2019 - 2024. All rights reserved.