hbase、区域服务器、存储文件大小、索引

wixjitnu  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(372)

您在hbase中对索引表使用压缩吗?如果是,您使用哪种压缩方式?
我注意到索引表的大小非常大,而且每天都在增长。。。在添加了新的存储之后,其大小更大。
我有一张108.3克的table
在/apps/hbase/data/data/default中,索引表的大小为380.0 g,
在/apps/hbase/data/archive/data/default中,索引表的大小为1.2t
你能告诉我怎么处理索引表的大小吗?
为什么hdfs上存档的数据如此之大/应用程序/hbase/data/archive/data/default
hdfs上存档目录的大小是否可以通过某种方式进行管理?存档占用了我的hdfs空间的2/3以上。
我还注意到,我在三个表上有超过一百个“分割区域”,其他表没有“分割区域”。你知道原因是什么吗?

ifmq2ha2

ifmq2ha21#

是的,我曾经像这样快活。。。

create 't1', { NAME => 'cf1', COMPRESSION => 'SNAPPY' }

压缩支撑检查

使用 CompressionTest 要验证是否已启用snappy支持,并且可以在集群的所有节点上加载库,请执行以下操作:

$ hbase org.apache.hadoop.hbase.util.CompressionTest hdfs://host/path/to/hbase snappy

对于你上面的大部分问题。。压缩会有帮助。再看看我的答案。它有什么帮助
我还注意到,我在三个表上有超过一百个“分割区域”,其他表没有“分割区域”。你知道原因是什么吗?
确保在有限数之间预先拆分表,例如0-9。
在表区域上运行压缩。

cu6pst1q

cu6pst1q2#

我在stage环境中发现,/apps/hbase/data/archive/中的大数据是由cron上运行的每日hbase快照造成的。
所以,现在我将重写脚本,只保留一到两个表快照。

相关问题