我想跟随网站的所有链接,并获得每个链接的状态像404,200。我尝试了这个:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
class someSpider(CrawlSpider):
name = 'linkscrawl'
item = []
allowed_domains = ['mysite.com']
start_urls = ['//mysite.com/']
rules = (Rule (LinkExtractor(), callback="parse_obj", follow=True),
)
def parse_obj(self,response):
item = response.url
print(item)
我可以在控制台上看到没有状态代码的链接,如下所示:
mysite.com/navbar.html
mysite.com/home
mysite.com/aboutus.html
mysite.com/services1.html
mysite.com/services3.html
mysite.com/services5.html
但如何保存在文本文件中的所有链接的状态?
1条答案
按热度按时间35g0bw711#
我解决了这个如下。希望这将有助于任何人谁需要。