如何每5分钟刷新流应用中的元数据数据框？

Question

我正在使用spark-sql 2.4.x版本，对于Cassandra-3.x版本使用datastax-spark-cassandra-connector。连同卡夫卡。

我有一个来自kafka主题的财务数据场景，例如financeDf我需要重新映射metadataDf = //从cassandra表加载的某些字段以进行查找。但是此cassandra表（metaDataDf）可以每小时更新一次。

在spark-sql构造的流应用程序中，每隔一小时如何从cassandra表中获取最新数据？

我不想为从主题即FinanceDf收到的每条记录加载此数据metaDataDf。>>

如何完成/处理？任何帮助请..

我正在使用spark-sql 2.4.x版本，对于Cassandra-3.x版本使用datastax-spark-cassandra-connector。随着卡夫卡。我有一个来自kafka主题的财务数据场景，例如FinanceDf I ...

Answer 1

[您有更多选择来做类似的事情，基本上，当您在谷歌搜索时，尝试着眼于spark enrichment with static data.Stack溢出已经有一些答案。