我正在使用spark-sql 2.4.x版本,对于Cassandra-3.x版本使用datastax-spark-cassandra-connector。连同卡夫卡。
我有一个来自kafka主题的财务数据场景,例如financeDf我需要重新映射metadataDf = //从cassandra表加载的某些字段以进行查找。但是此cassandra表(metaDataDf)可以每小时更新一次。
在spark-sql构造的流应用程序中,每隔一小时如何从cassandra表中获取最新数据?
我不想为从主题即FinanceDf收到的每条记录加载此数据metaDataDf。>>
如何完成/处理?任何帮助请..
我正在使用spark-sql 2.4.x版本,对于Cassandra-3.x版本使用datastax-spark-cassandra-connector。随着卡夫卡。我有一个来自kafka主题的财务数据场景,例如FinanceDf I ...
[您有更多选择来做类似的事情,基本上,当您在谷歌搜索时,尝试着眼于spark enrichment with static data.Stack溢出已经有一些答案。