如何在ApachePig中给出公式

70gysomp  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(367)

我想从这个方程中得到一个值

--counted gives the total row count in a file
samplecount = counted*(10/100);

如何根据这一点采样数据

--Load data
examples = LOAD '/home/sreeveni/myfiles/PE/USCensus1990New.csv' ;

--Group data
groupedByUser = group examples all;

--count no of lines in the file
 counted = FOREACH groupedByUser generate COUNT(examples) ;

--sampling
sampled = SAMPLE examples counted*(10/100);
store sampled into '/home/sreeveni/myfiles/OUT/samplesout';

显示上一行中的错误
无效的标量投影:已计数:需要从关系投影列才能将其用作标量
请给我建议。
我做错什么了吗。

laik7k3q

laik7k3q1#

如果您试图生成一个包含10%总行数的“示例”示例,那么您所要做的就是:

SAMPLE examples 0.1;

请阅读此处的示例命令文档。

pftdvrlh

pftdvrlh2#

我猜sample的值在[0,1]之间。在你的情况下,它超过了要求的值。如果只需要10%的数据,请直接传递0.1,若要在代码中获得该数据,请仅在foreach语句中找到该百分比。

相关问题