Scrapy:无法使用css选择器attr::img找到图像

cyvaqqii  于 2023-08-05  发布在  其他
关注(0)|答案(1)|浏览(115)

我正在尝试在这个页面上抓取一些元素:
https://www.liberation.fr/planete/2015/10/26/stupeur-en-argentine-le-candidat-de-kirchner-en-difficulte_1408847/
我想刮的文章中的图像的链接。以下是可以找到图像链接的html部分:

<figure class="lead-art-wrapper"><div><div class="sc-ckMVTt hVOpns"><img src="https://www.liberation.fr/resizer/Kmpp6T1oKcLS4NfCHPYuP-bPGMk=/1024x0/filters:format(jpg):quality(70)/cloudfront-eu-central-1.images.arcpublishing.com/liberation/QGDR2IJDFAWHBV35O7NBAJONJI.jpg" width="1024px" height="0px" class="sc-GVOUr jdlgMc"></div></div><figcaption><p class="ImageMetadata__MetadataParagraph-sc-1gn0vty-0 dkGqa-d image-metadata"><span>Peu après minuit, les premiers résultats négatifs parviennent au Luna Park, stade couvert de Buenos Aires, où sont rassemblés les partisans de la présidente Cristina Kirchner.  </span>(JUAN MABROMATA/AFP)</p></figcaption></figure>

字符串
使用scrappy shell我无法选择图像的链接:

response.css('div.sc-ckMVTt img::attr(src)')


甚至做:

response.css('img')


我只看到网站的logo。你能告诉我如何抓取图片的URL吗?我需要使用CSS选择器,因为我想选择多个页面和XPATH将不方便。
非常感谢

kokeuurv

kokeuurv1#

您的图片由JavaScript渲染。您可以检查HTML源代码(Ctrl+U),发现原始HTML中不存在上述标记。不幸的是,Scrapy不能执行JavaScript,您需要从Fusion.globalContent字符串中的JSON类对象解析图像路径。

相关问题