scrapy Xpath：如何在标记中获取标记的文本< a>< p>

4ngedf3f 于 2022-11-09 发布在其他

关注(0)|答案(1)|浏览(269)

我有以下问题时，试图从一些网站使用scrapy获得信息。
我试图获取<p>标记中的所有文本，但问题是，在某些情况下，这些标记中不仅包含文本，有时还包含<a>标记，当代码到达该标记时，它将停止收集文本。
这是我的Xpath表达式，当其中不包含标记时，它可以正常工作：

description = descriptionpath.xpath("span[@itemprop='description']/p/text()").extract()

1条答案

把帕维尔·米奇的评论作为一个答案发布，因为他的评论似乎帮助了我们许多人，到目前为止，包含了正确的答案：
在xpath的末尾添加//text()，以指定应该递归提取文本。
因此，您的xpath将如下所示：

span[@itemprop='description']/p//text()