需要像apachenutch这样没有hadoop的开源爬虫程序吗

ahy6op9u  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(283)

我需要一个开放源码的爬虫与功能,如url规范化,url过滤器,解析器,礼貌,不包括一些网址,但我所做的是没有大的反正。这只是大约500个主机与他们的1级大纲,我需要跟上最新的。我不喜欢通过实现nutch拥有的所有这些好特性来重新发明轮子,同时我也不喜欢hadoop在这个小任务上的开销。
有没有没有没有没有hadoop的nutch叉子?或者任何其他具有这些功能的简单爬虫程序?我不需要任何自适应的抓取调度、排名等,我只是有一个主机列表,我应该用一台机器来抓取它们的大纲图。
我喜欢吃坚果叉,因为我有使用经验。

wqsoz72f

wqsoz72f1#

我想你只需要linux命令 wget . 例如,假设主机放在文件中 hosts.txt . 您可以使用以下命令下载它们:

for host in `cat hosts.txt` ; do wget -r -d 1 -H "$host"; done

-r表示递归,-D1表示只下载1级,-h表示不限制域名。
你可以搜索 wget recursive download 在谷歌,或运行 man wget 获取更多信息。

vi4fp9gy

vi4fp9gy2#

nutch不再绑定到hadoop:
默认情况下,nutch不再附带hadoop发行版,但是当以本地模式运行时(例如,在一台机器上的单个进程中运行nutch),则我们使用hadoop作为依赖项。如果您有一个小型站点需要爬网和索引,那么这可能非常适合您,但是大多数人选择nutch是因为它能够在hadoop集群中以部署模式运行。
发件人:http://wiki.apache.org/nutch/nutchhadooptutorial

相关问题