我对Scrapy比较陌生。我遇到了一些页面无法正确加载的情况。我想再次重试该任务2次以确保它正确工作。请注意,我没有得到404错误,但它在解析结果时由于缺少某些元素而失败。
这种情况只发生在一百个案例中的几个案例中,并且在下次重试时无法再现它。(通过捕获整个响应主体进行验证)
怎么样才是处理这个问题的好办法呢?
我试过
def parse(self, response):
try:
#do something
yield result
except:
yield Request(response.url, callback=self.parse)
但是我认为这些正在被Scrapy过滤并识别为重复项。解决这个问题的最好方法是什么?
2条答案
按热度按时间aiazj4mn1#
您应该改用
scrapy.Request
中的errback
处理程序。下面是一个例子:```
sdnqo3pr2#
下面是我最终实现我的解决方案的过程。