我想使用Kafka将数据从内部部署流式传输到云端(S3)。我需要在源机器上和云上使用kafka。但我不想在云端进行调整。我需要一些S3连接器,我可以通过它连接kafka并将数据从内部部署流式传输到云端。
如果您的数据采用Avro或Json格式(或者可以转换为这些格式),则可以使用S3连接器进行Kafka Connect。见Confluent's docs on that
如果您想通过Kafka移动实际(更大)的文件,请注意Kafka是专为小消息而不是文件传输而设计的。
有一个kafka-connect-s3项目,包括Spreadfast的接收器和源接口,可以处理文本格式。不幸的是,它并没有真正更新,但仍然有效