我想使用Scrapy抓取数据,这里是链接
https://bbdealz.com/product/1000pcs-jigsaw-puzzle-7550cm-with-storage-bag-wooden-paper-puzzles-educational-toys-for-children-bedroom-decoration-stickers/
我使用此代码获取Description
'description': response.css('#tab-description p::text').extract(),
但回应是
description': [' ', 'None ', ' ', 'Unisex ', ' ', '12-15 Years ', ' ', 'Grownups ', ' ', 'Paper ', ' ', 'Landscape ', ' ', 'SMW783 ']
它会忽略<strong>
和<br>
标记。
我需要这样的输出
<p> <strong>Brand Name: </strong>None <br> <strong>Gender: </strong>Unisex <br> <strong>Age Range: </strong>12-15 Years <br> <strong>Age Range: </strong>Grownups <br> <strong>Material: </strong>Paper <br> <strong>Style: </strong>Landscape <br> <strong>Model Number: </strong>SMW783 </p>
3条答案
按热度按时间7tofc5zh1#
您可以尝试使用xpath:
我测试了这个,它似乎工作:
输出:
{'Brand Name: ': 'None ', 'Gender: ': 'Unisex ', 'Age Range: ': 'Grownups ', 'Material: ': 'Paper ', 'Style: ': 'Landscape ', 'Model Number: ': 'SMW783 '}
这只是html:
输出功率
bxjv4tth2#
当XPath中的/text()或CSS中的::text不能产生所需的结果时,我使用另一个库。
以安装它。
这些例子
fxnxkyjh3#
我试过这个,它工作
此致