卡夫卡哪个量用呢？

卡夫卡哪个量用呢？

问题描述投票：1回答：1

我从事日志集中化项目。

我正在与ELK合作收集/聚合/存储/可视化我的数据。我看到Kafka对于大量数据非常有用，但我无法从使用它的数据量中找到信息。

每天10千兆的日志？更少？

谢谢你的帮助。

apache-kafka

bigdata

elastic-stack

1个回答

1
投票

让我们以两种方式解决这个问题。

Kafka适合哪些数据量？卡夫卡大规模使用（Netflix，Uber，Paypal，Twitter等）和小型。如果需要，您可以从处理几MB的三个代理的集群开始，并根据需要从那里扩展。每天10 Gb的数据在Kafka中是完全合理的 - 但是要少十倍或十倍。
什么是卡夫卡适合？在您的问题中，Kafka充当系统之间事件驱动的集成点。它可能是一个“愚蠢”的管道，但因为它持续存储数据，使其能够在其他地方重建。它还提供native stream processing capabilities和integration with other systems。如果您所做的只是将日志记录到Elasticsearch中，那么Kafka可能会有点过分。但是如果你想在另一个地方使用那些日志数据（例如HDFS，S3等），或者为模式处理它，或者过滤条件以便在其他地方路由 - 那么Kafka将是一个明智的选择来通过它。 This talk探讨了其中的一些概念。

特别是在ELK和Kafka方面，Logstash和Beats可以写作Kafka作为输出，并且有一个Kafka Connect connector for Elasticsearch

免责声明：我为Confluent工作。