如何查找在Spark文件流中处理的文件

问题描述 投票:0回答:1

我有一个结构化的流应用程序,它正在监视Blob存储中的文件夹中是否有新文件,并对其进行处理。它运作良好,我可以监视和群集运行状况,查看传入记录,输出记录等,等等。但是我真的很想看看是否有任何日志表明正在处理的文件名,或者该文件的x条记录得到处理。

任何指针都会有所帮助。

apache-spark spark-streaming
1个回答
0
投票

已处理的文件名保存在流的已配置检查点中,例如.option("checkpointLocation", "dbfs://checkpointPath")

要监视流实际处理了多少输入行,请查看StreamingQueryListener

© www.soinside.com 2019 - 2024. All rights reserved.