我已经做了几个月的网页抓取,现在总是卡在网页加载数据使用javascript。我使用htmlunit在这类页面上取得了一定程度的成功,但有时htmlunit会抛出这些异常,最终不会加载页面。好吧,我不得不说这是一个命中和错过使用它。有没有具体的方法来实现它??但就我而言,我还没有深入研究。那么你的建议是什么??我应该继续使用htmlunit还是有其他好的方法(库)来实现javascript处理??作为记录,我使用java作为我的主要语言。
xvw2m8pv1#
我已经用htmlunit处理web 2-3年了,有一些配置可以帮助您处理加载问题:
webClient.setAjaxController(new NicelyResynchronizingAjaxController()); // Edit some js, prior to execution webClient.setScriptPreProcessor(new JavascriptPreProcessor() { ... } ); // Avoid throwing errors on JS execution webClient.setThrowExceptionOnScriptError(false); // Avoid throwing errors because of wrong response codes webClient.setThrowExceptionOnFailingStatusCode(false);
1条答案
按热度按时间xvw2m8pv1#
我已经用htmlunit处理web 2-3年了,有一些配置可以帮助您处理加载问题: