我通过Scrapy从一个网站的API中抓取了大约26,000个项目。我使用了一个旋转代理。当我运行spider时,它开始工作了一段时间。但随后400个响应的比率增加到了一个点,几乎95%被拒绝。
当我从当前的Wi-Fi切换到另一个Wi-Fi时,例如我的手机热点,200个响应的速率再次达到峰值,最终再次变慢。我将重试次数设置为50,这极大地延长了刮取过程,需要长达16个小时。我认为必须有一种方法来减少这些负面响应。
所以,问题是,尽管我使用了代理,为什么改变连接的Wi-Fi站会增加我的200个响应率?
谢谢你
1条答案
按热度按时间rks48beu1#
根据你使用的代理软件,它可能会设置HTTP头
X-Forwarded-For
和X-Real-IP
,即使你使用代理,也可以用来查看你的IP。但是,改变你的wifi,实际上会改变设备的IP,因此会改变X-Forwarded-For
和X-Real-IP
中的IP。我不知道你使用的是什么代理,但是检查是否有任何选项或模块来欺骗/取消设置X-Forwarded-For
和X-Real-IP
报头。