我在middlewares.py > process_request
中有以下代码:
def process_request(self, request, spider):
refreerr_list = [
'https://google.com',
'https://amazon.com',
'https://facebook.com',.....
]
referr = random.choice(refreerr_list)
request.header['referer'] = referr
因为它应该显示referer,但在日志中,它显示:
2022-07-17 07:17:13 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/AMD-Ryze.....RO-3995WX/dp/B08V5HPXVY> (referer: None)
我是否必须在www.example.com中添加一些内容settings.py?
但在settings.py
中执行以下操作时,它有效:
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',,
'referer': 'https://www.amazon.com/',
}
感谢您的帮助!
1条答案
按热度按时间dzjeubhm1#
您需要在设置中取消注解此部分。
类的名称将取决于项目的名称。