我想爬网一个网站,这是必需的访问,以查看网页。我可以爬网访客网页,但如何爬网登录保护的网页?如果有人共享配置或跳过身份验证机制的步骤来使用storm crawler对页面进行爬网,那就太好了。事先非常感谢。
kq0g1dla1#
您可以在拓扑的配置中设置以下键及其相应的值
http.basicauth.user http.basicauth.password
请参阅有关配置的wiki页面
1条答案
按热度按时间kq0g1dla1#
您可以在拓扑的配置中设置以下键及其相应的值
请参阅有关配置的wiki页面