用于读取和更新的hbase行键设计

toiithl6 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(338)

我正在尝试了解为hbase表设计键的最佳方法。
我的用例：
现在的结构
personid | batchdate | personjson
当修改某人的某些内容时，会在hbase中插入一个新的personjson和一个新的batchdate来更新旧记录。每4小时扫描一次所有被修改的人，然后将其推送到hadoop进行进一步处理。
如果我的钥匙只是拟人的话，它很适合更新数据。但是我的性能很差，因为我必须在batchdata列上添加一个过滤器来扫描所有大于批处理日期的行。
如果我的键是batchdate | personid这样的复合键，我可以在行键上使用startrow和endrow，并获取所有修改过的行。但我会有很多重复，因为关键是不唯一的，不能再更新一个人。
行+列（personid+batchdate）上的bloomfilter是一个选项吗？
感谢您的帮助。谢谢，阿披实

hadoop hbase bloom-filter

来源：https://stackoverflow.com/questions/26319624/hbase-row-key-design-for-reads-and-updates