Spark 如何结构化流式处理微批次 - 一个接一个或同时

问题描述 投票:0回答:1

我有一个关于如何处理微批次的问题。会火花

  • 为所有可用的执行器获取多个微批次并并行处理多个微批次或
  • 它将仅获取一批并对其进行处理,然后获取另一批

似乎第二种变体是正确的,但我不确定,我是 Spark Structured Streaming 的新手

spark-structured-streaming
1个回答
0
投票

我假设您问的是固定间隔微批次。来自关于固定间隔微批次触发器的 Spark 结构化流媒体文档:

查询将以微批次模式执行,微批次将按照用户指定的时间间隔启动。

  • 如果前一个微批次在间隔内完成,则 发动机将等到间隔结束后再启动 下一个微批次。
  • 如果前一个微批次花费的时间比 要完成的间隔(即,如果错过间隔边界),则 前一个微批次完成后,下一个微批次就会开始 (即,它不会等待下一个间隔边界)。
  • 如果没有新数据可用,则不会启动任何微批次。

第二个项目符号表示微批次是连续处理的,这与您的第二个变体一致。

© www.soinside.com 2019 - 2024. All rights reserved.