我目前正在研究一个基于大量数据的匹配算法的概念。这是我第一次。
情况就是这样:
我们有x个“house”类型的物体,具有大小、位置等特征
我们有人在找房子,他们的搜索范围包括大小、位置等等
=>我们希望根据人们的喜好(大小、位置等)来匹配房屋
更好的方法是什么?
1) 聚类所有的房子,并检查该人(谁想买)属于哪一类(匹配人/房子与相同的特征值,如大小和位置)2)建立一个推荐人也需要许多人谁买了房子在过去在我们的hdsf
使用哪种技术来实现更好的方法?
我目前正在考虑:hadoop/hive(存储)-sqoop(将数据放入存储)-mahout(分析)
非常感谢你的帮助!提前谢谢!
1条答案
按热度按时间23c0lvtd1#
我建议,基于你还没有用户来匹配房子的事实,最好的方法是使用聚类,一旦你有了一致的聚类,给每个聚类分配一个类,把问题归结为一个分类问题。
至于堆栈,它很大程度上取决于个人喜好加上可用的硬件。