如何将Spark结构化流连接到来自Azure Data Lake Storage Gen2或Blob存储的Blob /文件创建事件

Question

我是Spark结构化流及其概念的新手。在阅读Azure HDInsight群集here的文档时，提到结构化流应用程序在HDInsight群集上运行，并连接到.. Azure存储或Azure Data Lake Storage的流数据。我正在研究如何开始使用流技术来侦听来自存储或ADLS的新文件创建的事件。 spark documentation确实提供了一个示例，但是我正在寻找如何将流与blob /文件创建事件联系在一起，以便可以将文件内容存储在我的spark作业的队列中。如果有人可以帮助我，那就太好了。

Answer 1

很乐意为您提供帮助，但是您可以更精确地满足要求。是的，您可以在Azure HDInsight上运行Spark结构化流作业。基本上将天蓝色的Blob存储安装到群集，然后您可以直接读取Blob中的可用数据。

val df = spark.read.option("multiLine", true).json("PATH OF BLOB")

如何将Spark结构化流连接到来自Azure Data Lake Storage Gen2或Blob存储的Blob /文件创建事件

问题描述投票：-1回答：1

1个回答

最新问题

如何将Spark结构化流连接到来自Azure Data Lake Storage Gen2或Blob存储的Blob /文件创建事件

问题描述 投票：-1回答：1

1个回答

最新问题

问题描述投票：-1回答：1