我正在将流媒体应用程序从水槽移动到kafka。 我需要帮助,因为我是卡夫卡的新手。
我有一台Windows机器,IOT传感器在特定位置连续生成CSV文件,例如D:/ Folder。 我想将它转移到hadoop集群。
1)我是否需要在传输日志文件之间使用kafka集群/代理,还是可以直接从我的Windows机器转移到hadoop linux机器?
2)我可以在Windows和hadoop linux机器上安装kafka然后直接将我的CSV文件发布到在hadoop机器上创建的kafka主题。 我会在hadoop机上运行一个消费者吗?
使用kafka使用者获取文件并将其放在HDFS上。您需要一个生产者来发送队列中的文件和消费者来做他们想要的事情。
生产者可以在Windows中运行,需要使用kafka客户端api。
消费者必须在HDFS上运行。您需要在群集上安装kafka,配置它等等...取决于您的Hadoop发行版。
在传输日志文件之间是否需要kafka群集/代理
如果你想使用Kafka,那么是的,你需要一个真正的集群。
我可以直接从我的Windows机器转移到hadoop linux机器吗?
当然。使用Flume,Spark,Flink,NiFi等。没有必要使用Kafka
我可以在Windows和hadoop linux机器上安装kafka然后直接将我的CSV文件发布到在hadoop机器上创建的kafka主题
您不会为生产者客户端安装Kafka。您将下载这些库并使用它们来发布消息。随意在Hadoop节点上安装Kafka,但它们应该在独立的硬件上