Apache Kafka是一种实时消息服务。它以分布式和容错的方式安全地存储数据流。我们可以在生产者时过滤流数据。我不明白为什么我们需要像MongoDB这样的NoSQL数据库来在Apache Kafka中存储相同的数据。真正的问题是为什么我们在NoSQL数据库和Apache Kafka中存储相同的数据?
我想如果我们需要NoSQL数据库,我们可以在不使用Apache Kafka的情况下首先从MongoDB中的客户端收集数据流。但是,大多数大数据架构偏好使用Apache Kafka在数据源和NoSQL数据库之间。(see)
这对于真实系统有什么好处?
这种架构有几个优点: