我正在用scrapy刮一个网站,我知道一些带有特定网址的页面根本不会改变,永远不会,而网站的其他部分带有特定网址的页面经常改变。我使用的是HTTPCACHE_ENABLED = True,显然只想缓存那些从未更改的页面,同时ping服务器以获取更改的页面。如果我知道哪些URL的格式会改变,哪些不会改变,我怎么能做到这一点呢?
HTTPCACHE_ENABLED = True
utugiqy61#
我找到解决办法了。您必须提供一个带有should_cache_request(self, request)中逻辑的自定义缓存策略,然后使用HTTPCACHE_POLICY = your policy object设置该策略
should_cache_request(self, request)
HTTPCACHE_POLICY = your policy object
1条答案
按热度按时间utugiqy61#
我找到解决办法了。您必须提供一个带有
should_cache_request(self, request)
中逻辑的自定义缓存策略,然后使用HTTPCACHE_POLICY = your policy object
设置该策略