scrapy 蜘蛛还是爬行动物适合这个任务?

0md85ypi  于 2022-11-09  发布在  其他
关注(0)|答案(1)|浏览(202)

我正在尝试使用python的Scrapy软件包来抓取足球运动员的数据。
https://www.example.com/players-我将其称为“主页”
这里有一个在联盟中打球的球员列表。要获得我在主页上查找的数据,我必须点击球员的名字,它会带我进入该球员的“概述”页面,其中有我需要的数据。要获得我想为第二个球员刮取的数据,我必须回到主页,点击第二个玩家的名字,然后刮取数据〉再次回到主页,点击第三个玩家的名字,以此类推。那么,我应该如何在Scrapy中完成这项任务呢?我应该使用scrapy.spider还是crawlspider?我该如何告诉scrapy我想进入一个特定的页面(玩家的概述页面),然后转到所有玩家列表所在的主页,这样我就可以重复相同的过程去找下一个玩家了?提前感谢!

xmakbtuz

xmakbtuz1#

假设页面不是用javascript呈现的,scrappy将是一个很好的工具。
我建议阅读安装文档和教程,以大致了解它是如何工作的,从哪里开始以及如何开始一个新项目。
下面是蜘蛛的一个示例:

import scrapy

class MySpider(scrapy.Spider):

    name = "myspider"
    start_urls = ["https://example.com/homepage"]

    def parse(self, response):
        for players_name in response.xpath_or_css_selector(some_selector_path_to_url).getall():
            yield scrapy.Request(url, callback=self.parse_player)

    def parse_player(self, response):
        # scrape the player data into a dictionary and then yield it as an item
        yield {player: data}

Installation docs
Scrapy Tutorial

相关问题