在具有Spark作业的Scala项目中,我使用了Spark-Hbase连接器(SHC)连接从Hbase数据读取的数据。请求的数量非常大,我试图在一定时间内使用缓存的数据。我想知道是否可以做到。也许记忆可以帮助?!
HBase itself provides two different kinds of cache。
将数据缓存到Spark中的一种方法是使用Pair RDDs。
您也可以使用Broadcast variables
关于备忘录,请记住,它对于单个节点而言是本地的。因此,您可以在一个节点上存储数据,并在所有其他节点上保留高速缓存未命中。