如何每5分钟刷新流应用中的元数据数据框?

问题描述 投票:0回答:1

我正在使用spark-sql 2.4.x版本,对于Cassandra-3.x版本使用datastax-spark-cassandra-connector。连同卡夫卡。

我有一个来自kafka主题的财务数据场景,例如financeDf我需要重新映射metadataDf = //从cassandra表加载的某些字段以进行查找。但是此cassandra表(metaDataDf)可以每小时更新一次。

在spark-sql构造的流应用程序中,每隔一小时如何从cassandra表中获取最新数据?

我不想为从主题即FinanceDf收到的每条记录加载此数据metaDataDf。>>

如何完成/处理?任何帮助请..

我正在使用spark-sql 2.4.x版本,对于Cassandra-3.x版本使用datastax-spark-cassandra-connector。随着卡夫卡。我有一个来自kafka主题的财务数据场景,例如FinanceDf I ...

apache-spark cassandra apache-spark-sql spark-streaming
1个回答
0
投票

[您有更多选择来做类似的事情,基本上,当您在谷歌搜索时,尝试着眼于spark enrichment with static data.Stack溢出已经有一些答案。

© www.soinside.com 2019 - 2024. All rights reserved.