你好,我是新的scrapy和网页刮一般,我有一个很难的时间,试图从这个网站刮:https://www.webuycars.co.za/buy-a-car
我的目标是刮汽车数据,如名称,价格等从网页上
我从
scrapy shell "https://www.webuycars.co.za/buy-a-car"
然后我做了
fetch("http://localhost:8050/render.html?url=https://www.webuycars.co.za/buy-a-car")
我使用splash与scrapy,因为我已经得出结论,该页面是用javascript创建的,然后我试图发送一些请求,但在页面的html中的某个点后,我开始得到空白(这是我假设是javascript创建的)例如
response.css("div.col-lg-3.col-md-4.col-sm-6.mt-3").getall()
[]
response.css("div.result-item-title").getall()
[]
response.css("div.result-item-title").get()
response.css(".result-item-title").getall()
[]
得到标题似乎工作,但没有其他我尝试过的作品
response.css("title::text").get()
'WeBuyCars | Sell Cars For Cash | Free Online Vehicle Valuations'
我一直在尝试做这些请求,以确保在我编写蜘蛛程序并将其正确地实现到我的程序中之前得到结果。我在设置文件中设置了我的用户代理。我查看了所有的源文件,以查看是否有包含我所需要的内容的json文件,但没有。我不确定我还能做些什么。我在这个问题上已经纠结了很长一段时间了,我将感激任何帮助。
1条答案
按热度按时间monwx1rj1#
您可以从
API
响应中获取所有数据输出: