我有一个要求,我需要从kafka主题中读取消息,对数据集进行查找,然后根据查找数据的结果发送消息。以下示例使这一点更加清晰。
Kafka主题接收xml消息,该消息具有保存值2345的字段messageID
我们进行查找并确认之前尚未发送此ID的消息。如果这返回false,我们发送消息,然后将此messageID添加到查找数据。如果此messageID已经在查找数据中,我们不会发送它。
目前,这是通过使用hbase表来保存查找数据来实现的。但是,我们每天可以收到数百万条消息,我担心组件的性能会随着时间的推移而降低。
是否有另一种更优化的解决方案来使用hbase来查找此查找数据,例如将此数据存储在RDD的内存中?我尝试了这个,但有一些困难,因为火花上下文显然不可序列化,所以我无法添加到现有的lookuo数据集
任何建议都非常感谢!
非常感谢
Dan
Spark适用于处理大量数据以用于分析目的。创建RDD抽象是为了增强Map-Reduce过程的性能限制。 Spark不像HBase
那样取代了键/值存储。
查看您的问题在我看来,您需要在HBase之上的缓存层。这可以通过Redis
或其他分布式缓存机制来实现。
RDD cachined在这里没有用,因为
现在,您可能可以构建一些布隆过滤器,对数据建立索引并使用Spark进行查找。但是,这可能很难。