scrapy 如何刮这个数据库网站?

fsi0uk1n  于 2022-12-04  发布在  其他
关注(0)|答案(1)|浏览(106)

我想爬这个网站,但它似乎像信息不是在html代码。如何刮这个网站/信息?
https://golden.com/query/list-of-incubator-companies-NMB3
我试过使用普通的html scraping,但目前我对scraping一点也不熟悉。

ehxuflar

ehxuflar1#

这个网站使用javascript来呈现它的内容,但是你可以使用它的api来抓取json格式的所有数据。
API端点为:

url = f"https://golden.com/api/v1/queries/list-of-incubators-and-accelerators-NMB3/results/?page={page_number}&per_page=25&order=&search="

一个简单的小例子看起来像这样。

import scrapy

class MySpider(scrapy.Spider):
    name = 'golden'

    def start_requests(self):
        for page_num in range(1,4):
            url = f"https://golden.com/api/v1/queries/list-of-incubators-and-accelerators-NMB3/results/?page={page_num}&per_page=25&order=&search="
            yield scrapy.Request(url)

    def parse(self, response):
        data = response.json()
        yield {"data": data["results"]}

相关问题