通过加水印可以自动删除Apache Spark结构化流中的旧状态数据。在结构化流编程指南.md中,字数示例演示了加水印如何轻松删除记录或到达系统较晚的事件。 (https://github.com/apache/spark/blob/master/docs/structured-streaming-programming-guide.md)
words.withWatermark(“ timestamp”,“ 10分钟”)
是否可以将通过水印添加或删除的记录保存在磁盘或表中?
简单的回答是“否。它不是标准地满足SSS框架的。”>
是的,spark没有跟踪这些记录的功能。但是flink做到了!