如何将流数据与表进行缓慢更新(例如每天一次)连接?

问题描述 投票:0回答:1

[在结构化流中,我需要将流数据与一些变化缓慢的数据结合在一起。变化缓慢的数据每天更新一次,并且可能不是在固定的时间更新。但是,流数据以秒为单位。如果我不想在每个微型批次中加载变化缓慢的数据,并且也希望在更新后获得最新版本的变化缓慢的数据,有没有办法做到这一点?

谢谢

apache-spark spark-structured-streaming
1个回答
0
投票

我建议对流数据使用DataStreamWriter.foreachBatch,并在需要时仅对缓慢变化的数据集使用cacheunpersist。由于foreachBatch在驱动程序上起作用(尽管在单独的线程上),所以它应该起作用。

我认为,一种非常高级的方法是开发一个自定义数据源,该数据源将自己完成”缓慢的工作”。

© www.soinside.com 2019 - 2024. All rights reserved.