java—使用java脚本在页面上进行web清理

weylhg0b  于 2021-06-30  发布在  Java
关注(0)|答案(1)|浏览(437)

我已经做了几个月的网页抓取,现在总是卡在网页加载数据使用javascript。
我使用htmlunit在这类页面上取得了一定程度的成功,但有时htmlunit会抛出这些异常,最终不会加载页面。好吧,我不得不说这是一个命中和错过使用它。
有没有具体的方法来实现它??
但就我而言,我还没有深入研究。那么你的建议是什么??我应该继续使用htmlunit还是有其他好的方法(库)来实现javascript处理??
作为记录,我使用java作为我的主要语言。

xvw2m8pv

xvw2m8pv1#

我已经用htmlunit处理web 2-3年了,有一些配置可以帮助您处理加载问题:

webClient.setAjaxController(new NicelyResynchronizingAjaxController());
// Edit some js, prior to execution
webClient.setScriptPreProcessor(new JavascriptPreProcessor() { ... } );
// Avoid throwing errors on JS execution
webClient.setThrowExceptionOnScriptError(false);
// Avoid throwing errors because of wrong response codes
webClient.setThrowExceptionOnFailingStatusCode(false);

相关问题