在流处理中从大型数据集过滤

问题描述 投票:-1回答:1

我正在开发流应用程序,输入流是一系列事件。对于每个事件,我需要从关系数据库中过滤掉有效的订户。

eventId => (eventId, [subscriberIds])

假设订阅表是有界的(或方便的话是无界的),并且有数百万行,有没有办法有效地执行此过滤?

假设我正在使用Flink,但是我也可以使用Spark或Storm解决方案。

apache-spark apache-flink apache-storm flink-streaming stream-processing
1个回答
0
投票

假定有效订户的集合正在不断更新,并且在执行此验证时您不得使用过时的信息,那么Flink提供了两种选择:

  1. 使用Flink的异步I / O运算符来管理对关系数据库的查询
  2. 通过在其更改数据捕获流中进行流传输,将关系数据库的镜像保持在Flink状态
© www.soinside.com 2019 - 2024. All rights reserved.