我想从这个方程中得到一个值
--counted gives the total row count in a file
samplecount = counted*(10/100);
如何根据这一点采样数据
--Load data
examples = LOAD '/home/sreeveni/myfiles/PE/USCensus1990New.csv' ;
--Group data
groupedByUser = group examples all;
--count no of lines in the file
counted = FOREACH groupedByUser generate COUNT(examples) ;
--sampling
sampled = SAMPLE examples counted*(10/100);
store sampled into '/home/sreeveni/myfiles/OUT/samplesout';
显示上一行中的错误
无效的标量投影:已计数:需要从关系投影列才能将其用作标量
请给我建议。
我做错什么了吗。
2条答案
按热度按时间laik7k3q1#
如果您试图生成一个包含10%总行数的“示例”示例,那么您所要做的就是:
请阅读此处的示例命令文档。
pftdvrlh2#
我猜sample的值在[0,1]之间。在你的情况下,它超过了要求的值。如果只需要10%的数据,请直接传递0.1,若要在代码中获得该数据,请仅在foreach语句中找到该百分比。