java爬虫

f87krz0w  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(360)

我想使用mapreduce架构实现一个基于hadoop框架的java爬虫,并在hbase中插入内容。我尝试结合这两个教程:
基本网络爬虫示例
mapreduce教程
但我不能理解这个概念。从页面中提取链接的逻辑放在哪里?Map器的输入数据类型是什么?提前谢谢

jtjikinw

jtjikinw1#

只需使用ApacheNutch——它基于hadoop,拥有您需要的一切。

相关问题