hbase-考虑表中列数时的任何关键影响(性能、大小等)

anauzrmj  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(486)

当我现在真的不需要这些数据时,我应该避免向hbase表中添加额外的列吗?我的意思是,今天我在我的过程中得到了很多细节,有些属性我需要保存到hbase,有些是不需要的。我是否应该保存所有的输入,以备将来需要?会有什么影响?为了更好地理解查询,保存400个属性(在400列中)而不是200个属性会对我的系统产生什么影响?关于可用的大小,当然,我需要两倍的大小(这有成本影响,无论是在美国焊接学会或在前提下)。如何从表中读取数据(使用一些api进行查询或将数据提取到某个文件)?给table写信怎么样?别的?
谢谢!!!

yks3o0rb

yks3o0rb1#

对系统的影响可能很大,具体取决于:
您的查询模式是什么
你是如何设计你的行键的
如何将列划分为列族
…以及其他因素。拥有400列完全在hbase的能力范围内,但是您必须事先就表的设计做出明智的决定。
例如,如果您建议只使用一个列族,并将所有列都放在其中,那么当您从200到400进行查询时,肯定会看到性能影响。
另一方面,如果创建两个列族(“a”和“b”),并将最常查询的列放在a中,而最不常查询的列放在b中,则更有可能看到查询的执行效率更高。
如果您还没有,我建议您阅读hbase参考指南中的本节:
https://hbase.apache.org/book.html#schema
了解您在设计表时所做的选择对性能和效率的影响。

相关问题