我需要一个开放源码的爬虫与功能,如url规范化,url过滤器,解析器,礼貌,不包括一些网址,但我所做的是没有大的反正。这只是大约500个主机与他们的1级大纲,我需要跟上最新的。我不喜欢通过实现nutch拥有的所有这些好特性来重新发明轮子,同时我也不喜欢hadoop在这个小任务上的开销。
有没有没有没有没有hadoop的nutch叉子?或者任何其他具有这些功能的简单爬虫程序?我不需要任何自适应的抓取调度、排名等,我只是有一个主机列表,我应该用一台机器来抓取它们的大纲图。
我喜欢吃坚果叉,因为我有使用经验。
2条答案
按热度按时间wqsoz72f1#
我想你只需要linux命令
wget
. 例如,假设主机放在文件中hosts.txt
. 您可以使用以下命令下载它们:-r表示递归,-D1表示只下载1级,-h表示不限制域名。
你可以搜索
wget recursive download
在谷歌,或运行man wget
获取更多信息。vi4fp9gy2#
nutch不再绑定到hadoop:
默认情况下,nutch不再附带hadoop发行版,但是当以本地模式运行时(例如,在一台机器上的单个进程中运行nutch),则我们使用hadoop作为依赖项。如果您有一个小型站点需要爬网和索引,那么这可能非常适合您,但是大多数人选择nutch是因为它能够在hadoop集群中以部署模式运行。
发件人:http://wiki.apache.org/nutch/nutchhadooptutorial