有没有一个简单的Scrapy脚本的例子,可以从python脚本中调用,并访问网站上的每个URL,给出访问的每个页面的URL。
这是我目前所拥有的,但这绝对行不通。它甚至不会运行。
from scrapy.spiders import CrawlSpider
from twisted.internet import process
class MySpider(CrawlSpider):
name = 'toscrape'
allowed_domains = ['toscrape.com']
start_urls = ['http://books.toscrape.com']
def parse(self, response):
do_something(response.url)
def do_something(self, url):
# pass do something here
pass
process.crawl(MySpider)
process.start()
1条答案
按热度按时间h43kikqp1#
你其实也没差那么远。
实际上,您需要做的唯一更改是使用Scrapy的CrawlerProcess而不是Twisted版本,然后处理站点的分页和/或直接迭代页面URL列表。前者是更好的选择。
像这样: