如何在Azure Cloud上加入Kafka KStream和纯文件缓存?

问题描述 投票:0回答:1

我正在开发一个日志丰富的Kafka Stream工作。计划是使用Azure Blob上的文件缓存来丰富Kafka KStream的日志条目。我的理解是我必须将缓存文件从Azure Blob加载到KTable。然后我可以使用KTable加入KStream。

作为一个新手,我遇到了两个困难,有人能给我一些暗示吗?

  1. 看起来Kafka Connect没有用于连接Azure Blob的lib。我是否必须编写另一个单独的作业以始终从Azure读取并写回KTable?有什么快捷的方法吗?
  2. 缓存每天更新四到五次,作业需要检测缓存文件的更改并反映在KTable中。要检测是否从缓存文件中删除了某些条目,是否意味着我必须及时比较KTable和文件之间的每个条目?还有更有效的方法吗?

谢谢

azure apache-kafka-streams
1个回答
0
投票

有多种方法可以解决这个问题。您需要首先了解它,如果您想将数据读入KTable,首先需要将数据放入Kafka主题。

如果没有连接器,您可以编写自己的连接器(https://docs.confluent.io/current/connect/devguide.html)。另一种方法是,编写一个小应用程序,从Azure读取数据并使用KafkaProducer写入主题。

要更新KTable,您无需从Kafka Streams的角度来担心这一点。如果将新数据写入主题,则KTable将自动更新。如果您编写自己的连接器,这也将确保对文件的更新将自动传播到主题中。如果您编写自己的应用程序,则需要确保此应用程序将更改写入主题。

© www.soinside.com 2019 - 2024. All rights reserved.