hbase行键设计模式

lc8prwob  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(372)

我使用hbase来存储webtable内容,就像google使用bigtable一样。
供google bigtable参考
我的问题是罗基,我们应该如何形成它。
google正在做的是以相反的顺序保存url,正如你在pdf文档“com.cnn.www”中看到的那样,这样所有与cnn.com相关的链接都将被管理在同一个gfs块中,这将更容易扫描。
我可以使用谷歌正在使用的相同的东西,但它不会很酷,如果我使用一些算法来压缩网址
例如。

RewKey                               |  Google Bigtable                      |  Algorithm output
www.cnn.com/index.php                |  com.cnn.www/index.php                |  12as/435
www.cnn.com/news/business/index.html |  com.cnn.www/news/business/index.html |  12as/2as/dcx/asd
www.cnn.com/news/sports/index.html   |  com.cnn.www/news/sports/index.html   |  12as/2as/eds/scf

这样做的原因是,根据hbase设计模式(在主题6.3.2.3中提到),rowkey将更短。行键长度)。
所以我需要你们知道我说的对不对。。。。
如果我是正确的算法,我应该使用。我使用python作为一种编程语言,所以代码对我来说将是压倒性的。。。

dzhpxtsq

dzhpxtsq1#

当您缩短uri时,分别对主机和路径执行此操作,并连接起来,这样您的密钥将类似于hosthash!pathhash一方面使其保持简短,另一方面将来自同一站点的所有URI分组在一起

相关问题