我有一个关于如何处理微批次的问题。会火花
似乎第二种变体是正确的,但我不确定,我是 Spark Structured Streaming 的新手
我假设您问的是固定间隔微批次。来自关于固定间隔微批次触发器的 Spark 结构化流媒体文档:
查询将以微批次模式执行,微批次将按照用户指定的时间间隔启动。
- 如果前一个微批次在间隔内完成,则 发动机将等到间隔结束后再启动 下一个微批次。
- 如果前一个微批次花费的时间比 要完成的间隔(即,如果错过间隔边界),则 前一个微批次完成后,下一个微批次就会开始 (即,它不会等待下一个间隔边界)。
- 如果没有新数据可用,则不会启动任何微批次。
第二个项目符号表示微批次是连续处理的,这与您的第二个变体一致。