需要帮助为恶意URL的数据集创建mapreduce吗

ufj5ltwl  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(306)

我正在为我的最后一年的项目,我们必须创建一个应用程序来检测恶意网址。我们必须找到所有网址之间的模式。我们有一个大的数据集,需要很长的时间来匹配一个网址与其他网址。
现在我们正在考虑将项目转移到hadoop,但我们不知道如何为java项目和数据集制作mapreduce并将其转移到hadoop。
请帮助我们为我们的程序和数据集创建mapreduce。任何帮助都将不胜感激。

cgyqldqp

cgyqldqp1#

mapreduce不适合成对比较。
它意味着以相同的方式“Map”所有对象。要在严格的mr中处理成对数据,您必须大量复制数据。这不是一个好主意,因为由此产生的数据传输将破坏性能。
两两比较问题通常不能很好地扩展。
如果你真的想伸缩,想一个聪明的方法来避免比较所有的网址与一些好的过滤器。也许你可以用mapreduce进行过滤(并处理剩下的对)。

相关问题