在深入研究一些不太好看的文档和/或购买电子书之前,我遇到了这个非常大的工具:我只想问:apachenutch如何处理javascript繁重的站点,以及如何获取页面?我的意思是:它是如何克服知识产权禁令的?
gopyfrb31#
javascript-有一个基于selenium的协议实现,这对js站点很有帮助nutch基于hadoop,批处理驱动也是如此。如果您正在寻找一个基于流的爬行框架,那么stormcrawler将是一个更好的工具。
1条答案
按热度按时间gopyfrb31#
javascript-有一个基于selenium的协议实现,这对js站点很有帮助
nutch基于hadoop,批处理驱动也是如此。如果您正在寻找一个基于流的爬行框架,那么stormcrawler将是一个更好的工具。