Python Scrapy -(403)状态码未处理或不允许

gr8qqesn  于 2023-10-20  发布在  Python
关注(0)|答案(1)|浏览(167)

我试着从到到网上收集评论,更具体地说是从这个address上。
我目前无法抓取任何数据,并返回403状态代码。首先,我尝试了通常的命令scrape crawl reviews没有成功。然后我尝试用scrape shell 'website address'做一些测试,收到了同样的403状态。任何 extract() 尝试都返回一个空数组。
我在网上查找了一些指南,安装了scrapy-user-agents,并在链接页面中所示的 settings.py 文件中插入了正确的 Downloader Middlewares。scraper现在试图用一组假的用户代理来抓取网站,但对于每一个,我都会得到错误:
[scrapy_user_agents.user_agent_picker] WARNING: [UnsupportedBrowserType]
或错误:
[scrapy_user_agents.user_agent_picker] WARNING: [UnsupportedDeviceType]
0页面被抓取。
任何有经验的人在刮猫途鹰有任何想法如何解决这个问题?

368yc8dk

368yc8dk1#

我通过在 * settings.py * 文件中设置一个静态用户代理解决了这个问题。Scrapy已经为此提供了一个示例,但它被评论了。我只是取消了评论:
USER_AGENT = "reviewscraper (+http://www.yourdomain.com)"

相关问题