apache nutch优惠

bybem2ql  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(292)

在深入研究一些不太好看的文档和/或购买电子书之前,我遇到了这个非常大的工具:我只想问:
apachenutch如何处理javascript繁重的站点,以及如何获取页面?我的意思是:它是如何克服知识产权禁令的?

gopyfrb3

gopyfrb31#

javascript-有一个基于selenium的协议实现,这对js站点很有帮助
nutch基于hadoop,批处理驱动也是如此。如果您正在寻找一个基于流的爬行框架,那么stormcrawler将是一个更好的工具。

相关问题