嗨,我是hadoop的新人。最近,我在hdfs中放入了大量文本文件。我想做的是读取这些文件并使用pig(load,store)将它们放入hbase。但是,我发现存储到hbase需要很长时间。以前有人遇到过类似的情况吗?如果是,如何解决这个问题?谢谢
jm81lzqq1#
我在使用hbastorage时也面临同样的问题。实际上,hbastorage执行顺序put操作,将数据加载到hbase中。它不是一个真正的散装货。看看这个悬而未决的吉拉。https://issues.apache.org/jira/browse/pig-2921但是在使用importtsv选项之后,我得到了显著的性能差异。http://hbase.apache.org/book/ops_mgt.html#importtsv散装货物包括三个步骤1。pig:从源代码读取数据,在hbase表结构中格式化,加载到hdfs。2importtsv:准备通过completebulkload加载存储文件。三。completebulkload:将生成的存储文件移到hbase表中(就像割虫子一样)希望这是有用的:)
h6my8fg22#
所花费的时间取决于您拥有的节点数,显然还取决于文件的大小。我认为最好检查输入数据集的节点数/dfs大小。
2条答案
按热度按时间jm81lzqq1#
我在使用hbastorage时也面临同样的问题。实际上,hbastorage执行顺序put操作,将数据加载到hbase中。它不是一个真正的散装货。看看这个悬而未决的吉拉。https://issues.apache.org/jira/browse/pig-2921
但是在使用importtsv选项之后,我得到了显著的性能差异。http://hbase.apache.org/book/ops_mgt.html#importtsv
散装货物包括三个步骤1。pig:从源代码读取数据,在hbase表结构中格式化,加载到hdfs。2importtsv:准备通过completebulkload加载存储文件。三。completebulkload:将生成的存储文件移到hbase表中(就像割虫子一样)
希望这是有用的:)
h6my8fg22#
所花费的时间取决于您拥有的节点数,显然还取决于文件的大小。我认为最好检查输入数据集的节点数/dfs大小。