我使用带有两个节点的datastax cassandra 3.1.4。我正在用cqlstorage()运行pig,表中有1200万行,但是我发现对于一个简单的pig命令,只有一个map在运行。
我试着改变我和Pig的关系,但没有成功。
这是我的示例查询。
x = load'cql://Mykeyspace/MyCF?split_size=1000' using CqlStorage();
y = limit x 500;
dump y
我在mapred-site.xml中没有找到input.split.size属性我假设默认的拆分大小是64*1024
我试过了 set pig.splitCombination false;
现在它采取513Map的任何记录号码,我尝试了同样的事情从Hive
我已经从hive连接到cassandra,并给出了一个简单的selectall查询,其中col1>值这个表只有10条记录,但它仍然运行513个Map。
请帮帮我
谢谢
1条答案
按热度按时间e0bqpujr1#
尝试此设置:
默认情况下,pig将把它认为很小的分割合并成一个单独的Map。