[在结构化流中,我需要将流数据与一些变化缓慢的数据结合在一起。变化缓慢的数据每天更新一次,并且可能不是在固定的时间更新。但是,流数据以秒为单位。如果我不想在每个微型批次中加载变化缓慢的数据,并且也希望在更新后获得最新版本的变化缓慢的数据,有没有办法做到这一点?
谢谢
我建议对流数据使用DataStreamWriter.foreachBatch,并在需要时仅对缓慢变化的数据集使用cache和unpersist。由于foreachBatch
在驱动程序上起作用(尽管在单独的线程上),所以它应该起作用。
我认为,一种非常高级的方法是开发一个自定义数据源,该数据源将自己完成”缓慢的工作”。