我正试图在我的国家刮一个休闲运动队的网站,不断阻止我的Scrapy尝试。我试过设置一个用户代理,但没有任何成功。当我运行Scrapy时,我得到429未知状态。没有200成功。我可以在我的浏览器中访问该网站,所以我知道我的IP没有被阻止。如果你能帮忙的话,我将不胜感激。
下面是我正在使用的代码:
import scrapy
from scrapy.spiders import Rule, CrawlSpider
from scrapy.linkextractors import LinkExtractor
class QuoteSpider(CrawlSpider):
name = "Quote"
allowed_domains = ["avaldsnes.spoortz.no"]
start_urls = ["https://avaldsnes.spoortz.no/portal/arego/club/7"]
rules = (Rule(LinkExtractor(allow="")),)
custom_settings = {"USER_AGENT": "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"}
def parse(self, response):
print(response.request.headers)
我试着抓取网站的链接,但没有一个尝试成功。现在用户代理被设置为谷歌机器人,但我也尝试过常规的。
1条答案
按热度按时间9rbhqvlz1#
在这种情况下,您需要设置头文件(而不仅仅是用户代理)。
输出: