我有成千上万个来自同一个域的URL(存储在MongoDB中),我需要使用Scrapy来抓取它们。问题是,蜘蛛抓取第一个URL,完成后再抓取第二个。我如何让它一次抓取多个URL,所有的URL都被并行抓取-独立地抓取?我总是可以多次运行命令scrapy crawl <spidername>,但我正在寻找一个比这更复杂的解决方案。欢迎提出实验性想法!
scrapy crawl <spidername>
3ks5zfa01#
您可以在Spider的start_urls参数中加载Mongo中的所有url。Scrapy将从该列表中选择url并开始并行处理它们。
1条答案
按热度按时间3ks5zfa01#
您可以在Spider的start_urls参数中加载Mongo中的所有url。Scrapy将从该列表中选择url并开始并行处理它们。