我正在为我的最后一年的项目,我们必须创建一个应用程序来检测恶意网址。我们必须找到所有网址之间的模式。我们有一个大的数据集,需要很长的时间来匹配一个网址与其他网址。现在我们正在考虑将项目转移到hadoop,但我们不知道如何为java项目和数据集制作mapreduce并将其转移到hadoop。请帮助我们为我们的程序和数据集创建mapreduce。任何帮助都将不胜感激。
cgyqldqp1#
mapreduce不适合成对比较。它意味着以相同的方式“Map”所有对象。要在严格的mr中处理成对数据,您必须大量复制数据。这不是一个好主意,因为由此产生的数据传输将破坏性能。两两比较问题通常不能很好地扩展。如果你真的想伸缩,想一个聪明的方法来避免比较所有的网址与一些好的过滤器。也许你可以用mapreduce进行过滤(并处理剩下的对)。
1条答案
按热度按时间cgyqldqp1#
mapreduce不适合成对比较。
它意味着以相同的方式“Map”所有对象。要在严格的mr中处理成对数据,您必须大量复制数据。这不是一个好主意,因为由此产生的数据传输将破坏性能。
两两比较问题通常不能很好地扩展。
如果你真的想伸缩,想一个聪明的方法来避免比较所有的网址与一些好的过滤器。也许你可以用mapreduce进行过滤(并处理剩下的对)。