我在apachehadoop中有下面的用户数据结构
21796346,83637,2990666,1,2,false,0,0
21827841,15748,8754621,1,7,true,0,1
第一个字段的前4位数字表示用户类型。第二个字段表示部门类型。
我想查询每个部门的用户类型数。sql语句如下
select dept_id, substr(User_Id,1,4) as user_type, count(*) as number_of_users from users group by dept_id,substr(User_Id,1,4)
我不知道如何在pig中定义substr函数。
2条答案
按热度按时间vsmadaxz1#
你可以用Pig的子串
以获取可以按所有用户分组的所有用户数。
bq9c1y662#
您可以在这里找到pig内置函数的完整列表。您要查找的函数被调用
SUBSTRING
. 注意pig中的函数名是区分大小写的。