我正在尝试在这个页面上抓取一些元素:
https://www.liberation.fr/planete/2015/10/26/stupeur-en-argentine-le-candidat-de-kirchner-en-difficulte_1408847/
我想刮的文章中的图像的链接。以下是可以找到图像链接的html部分:
<figure class="lead-art-wrapper"><div><div class="sc-ckMVTt hVOpns"><img src="https://www.liberation.fr/resizer/Kmpp6T1oKcLS4NfCHPYuP-bPGMk=/1024x0/filters:format(jpg):quality(70)/cloudfront-eu-central-1.images.arcpublishing.com/liberation/QGDR2IJDFAWHBV35O7NBAJONJI.jpg" width="1024px" height="0px" class="sc-GVOUr jdlgMc"></div></div><figcaption><p class="ImageMetadata__MetadataParagraph-sc-1gn0vty-0 dkGqa-d image-metadata"><span>Peu après minuit, les premiers résultats négatifs parviennent au Luna Park, stade couvert de Buenos Aires, où sont rassemblés les partisans de la présidente Cristina Kirchner. </span>(JUAN MABROMATA/AFP)</p></figcaption></figure>
字符串
使用scrappy shell我无法选择图像的链接:
response.css('div.sc-ckMVTt img::attr(src)')
型
甚至做:
response.css('img')
型
我只看到网站的logo。你能告诉我如何抓取图片的URL吗?我需要使用CSS选择器,因为我想选择多个页面和XPATH将不方便。
非常感谢
1条答案
按热度按时间kokeuurv1#
您的图片由JavaScript渲染。您可以检查HTML源代码(Ctrl+U),发现原始HTML中不存在上述标记。不幸的是,Scrapy不能执行JavaScript,您需要从
Fusion.globalContent
字符串中的JSON类对象解析图像路径。