我们有一个用例,需要将大量的销售数据放到hadoop中。然后用户群将使用这些数据。用户将做进一步的聚合&可能做sum、avg、count等。
需要查询快速返回结果。因此,我们正在探索hbase而不仅仅是hive。下面是示例数据。
日期商店发票项目销售费用1-jan 1 100 3123123 43 24 2-jan 3 101 344324 434 232 3-jan 2 102 342344 34 23
我知道使用hbase协处理器端点,聚合可以避免mapreduce作业,而且延迟很低。但当用户只获取行的子集时,不确定如何实现它。
假设在上述情况下,用户希望看到项目1和2的销售总额,那么结果应该是77,query应该在最长几秒钟内返回结果。另一个用户可能希望看到项目2和3的销售。谢谢你的建议。
暂无答案!
目前还没有任何答案,快来回答吧!