hbase、区域服务器、存储文件大小、索引

wixjitnu 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(372)

您在hbase中对索引表使用压缩吗？如果是，您使用哪种压缩方式？
我注意到索引表的大小非常大，而且每天都在增长。。。在添加了新的存储之后，其大小更大。
我有一张108.3克的table
在/apps/hbase/data/data/default中，索引表的大小为380.0 g，
在/apps/hbase/data/archive/data/default中，索引表的大小为1.2t
你能告诉我怎么处理索引表的大小吗？
为什么hdfs上存档的数据如此之大/应用程序/hbase/data/archive/data/default
hdfs上存档目录的大小是否可以通过某种方式进行管理？存档占用了我的hdfs空间的2/3以上。
我还注意到，我在三个表上有超过一百个“分割区域”，其他表没有“分割区域”。你知道原因是什么吗？

hadoop hbase indexing hortonworks-data-platform compression

来源：https://stackoverflow.com/questions/41096775/hbase-region-servers-storefile-size-indexes

2条答案

按热度按时间

ifmq2ha21#

是的，我曾经像这样快活。。。

create 't1', { NAME => 'cf1', COMPRESSION => 'SNAPPY' }

压缩支撑检查

使用 CompressionTest 要验证是否已启用snappy支持，并且可以在集群的所有节点上加载库，请执行以下操作：

$ hbase org.apache.hadoop.hbase.util.CompressionTest hdfs://host/path/to/hbase snappy

对于你上面的大部分问题。。压缩会有帮助。再看看我的答案。它有什么帮助
我还注意到，我在三个表上有超过一百个“分割区域”，其他表没有“分割区域”。你知道原因是什么吗？
确保在有限数之间预先拆分表，例如0-9。
在表区域上运行压缩。

赞(0）回复(0）举报 2021-05-29

cu6pst1q2#

我在stage环境中发现，/apps/hbase/data/archive/中的大数据是由cron上运行的每日hbase快照造成的。
所以，现在我将重写脚本，只保留一到两个表快照。

赞(0）回复(0）举报 2021-05-29

我来回答

hbase、区域服务器、存储文件大小、索引

2条答案

压缩支撑检查

相关问题

热门标签

最新问答