几天来我一直在做作业,所以我决定请斯塔克福帮忙。我有一个很大的csv文件,包含一个人员列表,他们的角色和薪水。
有些工资被人为抬高了,我需要找到他们。下面是该文件的示例屏幕截图。
我想这样做的方法是定义一个区域,每个角色的工资都被视为“正常值”。我该怎么做?我不研究统计学,我不知道我是否应该用标准差来定义每个角色的中间值。。。
你会怎么做?
我的csv文件可以通过hadoop集群(cloudera quickstart vm)上的hive获得。我可以用我想要的语言来解决这个问题。
这是我第一次研究hadoop和hive。我只懂js/php等web语言,所以我对这类问题非常陌生。
暂无答案!
目前还没有任何答案,快来回答吧!