我正在开发以下架构:
1)flume agent_a将文本文件拖到数据源目录中,并在kafka主题中移动它们。
2flume agent_b将文本文件从kafka主题移动到hdfs。
我对此问题有点困惑:
我如何确定agent_b将从kafka主题中获取数据,以便将与agent_a从数据源目录获取的文本文件完全相同的文本文件(相同的行,以相同的顺序)提取到HDFS中?
Tnks
Flume应该保持输入文件的源偏移量,并按该顺序将其批处理到Kafka Producer中。
但是,如果您在Kafka主题中有多个分区,则不能保证任何订购。