在一个有spark作业的scala项目中,我使用spark hbase connector(shc)连接从hbase读取的数据。请求的数量非常大,我尝试在一定时间内使用缓存数据。我想知道我能不能做到。也许回忆录能帮上忙?!
4uqofj5v1#
hbase本身提供两种不同的缓存。将数据缓存到spark的一种方法是使用成对rdd。也可以使用广播变量关于记忆化,请记住它是单个节点的本地存储。因此,可以在一个节点上存储数据,并在所有其他节点上保留缓存未命中。
1条答案
按热度按时间4uqofj5v1#
hbase本身提供两种不同的缓存。
将数据缓存到spark的一种方法是使用成对rdd。
也可以使用广播变量
关于记忆化,请记住它是单个节点的本地存储。因此,可以在一个节点上存储数据,并在所有其他节点上保留缓存未命中。