Noob web scraper在这里。我使用Scrapy和Playwright构建了一个蜘蛛,用于从autotrader.com上的参数化搜索URL的结果中抓取自动广告,并且它可以从第一页抓取数据。我现在正试图增加它来处理刮其余的页面。我已经在第一个页面的底部确定了分页的HTML元素,并通过DevTools验证了我有正确的xpath来选择它,但是当我运行我的蜘蛛时,response.text
不包含该HTML元素或它的任何子元素。它包含所有其他HTML元素,只是不包含那些...
因为我使用的是Playwright,所以对通过Javascript动态插入的任何担忧都应该是最小的。我还在有问题的分页元素上添加了一个“wait_for_selector”方法,超时时间为60秒,我的脚本最终超时。我还使用了“wait_until”和“networkidle”来确保在抓取之前已经加载了整个页面。
我有点搞不懂这是怎么回事。我使用的start_url是:here。我会很感激你们的任何反馈。
1条答案
按热度按时间1u4esq0p1#
这是你必须使用的xpath从一个页面移动到另一个页面,你必须引用它到href,就是这样,我希望它对你有用。