我使用scrapy来提取html中的目标文本,如下所示:
我的代码是:
import scrapy
from scrapy.crawler import CrawlerProcess
class MmSpider(scrapy.Spider):
name = 'name'
start_urls = ['file:///Users/saihhold/Desktop/maimai.mht']
def parse(self, response):
for title in response.xpath('//div[@class="media-body"]/div/div[1]'):
yield {
title.xpath('.//text()').getall()
}
if __name__ == "__main__":
process = CrawlerProcess()
process.crawl(MmSpider)
process.start()
然后使用以下命令运行它:
scrapy runspider mmspider.py -o mm.jl
但是mm.jl文件是空,我的代码或xpath有什么问题吗?
1条答案
按热度按时间vltsax251#
你的代码是好的,但是xpath选择不正确。你可以按照下一个例子来使用xpath获取标题。
输出量:
...等等