我想使用mapreduce架构实现一个基于hadoop框架的java爬虫,并在hbase中插入内容。我尝试结合这两个教程:基本网络爬虫示例mapreduce教程但我不能理解这个概念。从页面中提取链接的逻辑放在哪里?Map器的输入数据类型是什么?提前谢谢
jtjikinw1#
只需使用ApacheNutch——它基于hadoop,拥有您需要的一切。
1条答案
按热度按时间jtjikinw1#
只需使用ApacheNutch——它基于hadoop,拥有您需要的一切。