scrapy Xpath:如何在标记中获取标记的文本< a>< p>

4ngedf3f  于 2022-11-09  发布在  其他
关注(0)|答案(1)|浏览(269)

我有以下问题时,试图从一些网站使用scrapy获得信息。
我试图获取<p>标记中的所有文本,但问题是,在某些情况下,这些标记中不仅包含文本,有时还包含<a>标记,当代码到达该标记时,它将停止收集文本。
这是我的Xpath表达式,当其中不包含标记时,它可以正常工作:

description = descriptionpath.xpath("span[@itemprop='description']/p/text()").extract()
u5rb5r59

u5rb5r591#

把帕维尔·米奇的评论作为一个答案发布,因为他的评论似乎帮助了我们许多人,到目前为止,包含了正确的答案:
在xpath的末尾添加//text(),以指定应该递归提取文本。
因此,您的xpath将如下所示:

span[@itemprop='description']/p//text()

相关问题