data = LOAD 'hbase://MARS1'
USING org.apache.pig.backend.hadoop.hbase.HBaseStorage(
'A:*', '-loadKey true')
AS (id:bytearray, A_map:map[]);
justkeys = FOREACH data GENERATE id;
-- rough estimate of number of keys in hbase table
smp = SAMPLE justkeys 0.000001;
STORE smp INTO 'key_sample' USING PigStorage('\t');
2条答案
按热度按时间nwlqm0z11#
最后我在Pig身上做了这件事,但不管出于什么原因,它都慢得可怕。我得到了我需要的数据,所以我没有进一步说,但我可能应该试试 Alexandria 的答案。
irtuqstp2#
您可以使用randomrowfilter获取样本。