[我正在使用Kafka connect将文件下沉到HDFS,Kafka connect具有TopicPartitionWriter,它会按时对所有分区进行翻转,并且没有基于大小的翻转。
我想对每个分区进行基于大小和基于时间的过渡,因为通过每个分区的数据传递不均匀时,大小文件也相似。
2个问题:1.如果我尝试通过更改Kafka connect中的许多代码来做到这一点,那会失去原始设计吗?2.我的用例有什么事情要做?
TopicPartitionWriter,它会按时对所有分区进行翻转,并且没有基于大小的翻转
[flush.size
仍然(并且始终)使用。
如果我尝试通过更改Kafka connect中的许多代码来做到这一点,这将使原始设计松动
不?只要数据从Kafka传输到某个外部系统,这就是Connect Sink API提供的唯一合同。
我的用例是否做了任何事情?
扫描Github存储库的问题和PR