我是Spark结构化流及其概念的新手。在阅读Azure HDInsight群集here的文档时,提到结构化流应用程序在HDInsight群集上运行,并连接到.. Azure存储或Azure Data Lake Storage的流数据。我正在研究如何开始使用流技术来侦听来自存储或ADLS的新文件创建的事件。 spark documentation确实提供了一个示例,但是我正在寻找如何将流与blob /文件创建事件联系在一起,以便可以将文件内容存储在我的spark作业的队列中。如果有人可以帮助我,那就太好了。
很乐意为您提供帮助,但是您可以更精确地满足要求。是的,您可以在Azure HDInsight上运行Spark结构化流作业。基本上将天蓝色的Blob存储安装到群集,然后您可以直接读取Blob中的可用数据。
val df = spark.read.option("multiLine", true).json("PATH OF BLOB")