使用hadoop/hive在列表中查找异常高的值

yqlxgs2m 于 2021-05-27 发布在 Hadoop

关注(0)|答案(0)|浏览(223)

几天来我一直在做作业，所以我决定请斯塔克福帮忙。我有一个很大的csv文件，包含一个人员列表，他们的角色和薪水。
有些工资被人为抬高了，我需要找到他们。下面是该文件的示例屏幕截图。

我想这样做的方法是定义一个区域，每个角色的工资都被视为“正常值”。我该怎么做？我不研究统计学，我不知道我是否应该用标准差来定义每个角色的中间值。。。
你会怎么做？
我的csv文件可以通过hadoop集群（cloudera quickstart vm）上的hive获得。我可以用我想要的语言来解决这个问题。
这是我第一次研究hadoop和hive。我只懂js/php等web语言，所以我对这类问题非常陌生。