我有以下问题时,试图从一些网站使用scrapy获得信息。我试图获取<p>标记中的所有文本,但问题是,在某些情况下,这些标记中不仅包含文本,有时还包含<a>标记,当代码到达该标记时,它将停止收集文本。这是我的Xpath表达式,当其中不包含标记时,它可以正常工作:
<p>
<a>
description = descriptionpath.xpath("span[@itemprop='description']/p/text()").extract()
u5rb5r591#
把帕维尔·米奇的评论作为一个答案发布,因为他的评论似乎帮助了我们许多人,到目前为止,包含了正确的答案:在xpath的末尾添加//text(),以指定应该递归提取文本。因此,您的xpath将如下所示:
//text()
span[@itemprop='description']/p//text()
1条答案
按热度按时间u5rb5r591#
把帕维尔·米奇的评论作为一个答案发布,因为他的评论似乎帮助了我们许多人,到目前为止,包含了正确的答案:
在xpath的末尾添加
//text()
,以指定应该递归提取文本。因此,您的xpath将如下所示: