我正在尝试使用scrapy和它的Selector.css
来删除一个网站('ellenmacarthurfoundation'),具体来说就是这个页面:
Here's the website
Here's the html of the web that I'm trying to scrape的
我试图获取这个网站中的所有引用(),但我无法获取不同的元素。
我使用的代码是:
>>> links = response.css('.section-container li.ais-InfiniteHits-item a::attr(href)').getall()
>>> links
[]
字符串
我不知道为什么我收到一个空的答案。这将是伟大的,如果有人可以帮助我与字符串,我应该使用,以获得所有的链接。
谢谢大家!
1条答案
按热度按时间cmssoen21#
这个网站上的文章是动态加载的。你不能用通常的方式抓取这个内容。你有selenium选项,但我建议你在Inspect > Network > xhr中发送这个内容的查找源API:
的数据
从网络部分提取数据和头,并使用POST请求方法进行刮取,如下所示:
字符串