我正在尝试设置自己的标题和cookie时,使用SitemapSpider抓取:
class MySpider(SitemapSpider):
name = 'myspider'
sitemap_urls = ['https://www.sitemap-1.xml']
headers = {'pragma': 'no-cache',}
cookies = {"sdsd": "23234",}
def _request_sitemaps(self, response):
for url in self.sitemap_urls:
yield scrapy.Request(url=url,headers=self.headers,cookies=self.cookies,callback=self._parse_sitemap)
def parse(self, response, **cb_kwargs):
print(response.css('title::text').get())
...但它不起作用(cookie和头文件不传递),我该如何实现它?
2条答案
按热度按时间eoigrqb61#
我的决定
rbl8hiat2#
根据SitemapSpider的源代码,我认为将
_request_sitemaps
重命名为start_requests
应该可以做到这一点。