我正在用Python、Xpath和Scrapy学习网页抓取。我被下面的问题卡住了。如果你能帮助我,我将感激不尽。
这是HTML代码
<div class="discussionpost">
“This is paragraph one.”
<br>
<br>
“This is paragraph two."'
<br>
<br>
"This is paragraph three.”
</div>
这是我想要得到的输出:“这是第一段。这是第二段。这是第三段。”我想合并所有由<br>
分隔的段落。没有<p>
标记。
但是,我得到的输出是:“这是第一句话",“这是第二句话",“这是第三句话”
这是我正在使用的代码:
sentences = response.xpath('//div[@class="discussionpost"]/text()').extract()
我理解为什么上面的代码是这样的。但是,我不能改变它来做我需要做的事情。任何帮助都是非常感谢的。
1条答案
按热度按时间djp7away1#
要获取所有文本节点的值,必须调用
//text()
而不是/text()
由Scrapy Shell证明
更新日期: