在本地计算机上使用Kafka进行Spark实时Twitter流分析有什么弊端?

问题描述 投票:0回答:1

我正在使用Spark-Kafka集成来处理我的项目,该项目是在Twitter上找到最热门的主题标签。为此,我使用Kafka通过tweepy Streaming推送推文,而在消费者方面,我使用Spark Streaming进行DSStream和RDD转换...

[我的问题是,当我在本地计算机上同时运行生产者和使用者时,是否会通过kafka运行流式处理一段时间是否会导致存储问题...我可以安全地执行生产者多长时间(因为我需要运行一段时间以获得正确的趋势计数。)?

如果我在aws等云平台上运行它也会更好吗?

apache-spark apache-kafka spark-streaming twitter-streaming-api spark-streaming-kafka
1个回答
0
投票

我同意。存储是运行流服务器时的两难选择,aws是托管MSK,这是托管的Kafka流服务器。关于它的优点是,您可以集成s3进行备份,其成本比本地存储低得多,而且耐用性也很高。 EBS存储可以即时配置

https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-kafka-on-aws/

© www.soinside.com 2019 - 2024. All rights reserved.