scrapy 使用“ meta”传递参数时遇到错误

bis0qfac 于 2022-11-09 发布在其他

关注(0)|答案(1)|浏览(148)

我正在努力学习scrapy framework中“ meta”的用法。我正在尝试抓取的网站是“http://quotes.toscrape.com/“，我的要求是抓取第一页的“引用”、“作者”和作者的出生日期，其中前两个在第一级页面上，作者的出生日期在第二级页面上，我需要使用“meta”来传达引用和作者。
下面是我的代码，我的输出命令，它运行为“nothing”，我不知道是什么原因导致的，所以我在这里寻求帮助。
第一个

scrapy

来源：https://stackoverflow.com/questions/73956430/a-failure-was-encountered-while-passing-parameters-using-meta

1条答案

按热度按时间

mhd8tkvw1#

删除callback=self.parse_date()中的括号

import re
import scrapy
from ..items import ShuoItem
from scrapy import Request

class ShuoSpider(scrapy.Spider):
    name = 'shuo'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/page/1/']

    def parse(self, response):
        blocks = response.xpath(
            "//div[@class='container']/div[@class='row']/div[@class='col-md-8']/div[@class='quote']").extract()
        pattern1 = re.compile(r'<span class="text" itemprop="text">(.*?)</span>')
        pattern2 = re.compile(r'<small class="author" itemprop="author">(.*?)</small>')
        pattern3 = re.compile(r'<a href="(.*?)">')
        for block in blocks:
            quote = pattern1.findall(block)[0]
            author = pattern2.findall(block)[0]
            mo = pattern3.findall(block)[0]
            mo = response.urljoin(mo)
            yield Request(url=mo, meta={'k1': quote, 'k2': author}, callback=self.parse_date)

    def parse_date(self, response):
        item = ShuoItem()        
        item['quote'] = response.meta['k1']
        item['author'] = response.meta['k2']
        item['more'] = response.xpath("/html/body/div[@class='container']/div[@class='author-details']/p[1]/span[@class='author-born-date']/text()").extract_first()

        yield item

您可以改进的地方：

1.学习xapth的基础知识，也许你可以找到一个Xpath cheatsheet，去掉正则表达式，因为在这段代码中它真的是不必要的。它也会帮助你在未来更复杂的网页中，你的选择器会更短，更容易阅读。
1.您可以在for循环中声明该项，并将其传递给回调函数，而不是发送多个值。
1.你可以用cb_kwargs来代替meta。我觉得用...
1.不是一个错误，但阅读有关response.follow，当然你也可以使用urljoin。

import scrapy
from ..items import ShuoItem

class ShuoSpider(scrapy.Spider):
    name = 'shuo'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/page/1/']

    def parse(self, response):
        blocks = response.xpath('//div[@class="quote"]')

        for block in blocks:
            item = ShuoItem()
            item['quote'] = block.xpath('.//span[@class="text"]/text()').get()
            item['author'] = block.xpath('.//small[@class="author"]/text()').get()
            mo = block.xpath('.//a/@href').get()
            yield response.follow(url=mo, cb_kwargs={'item': item}, callback=self.parse_date)

    def parse_date(self, response, item):
        item['more'] = response.xpath('//span[@class="author-born-date"]/text()').get()
        yield item

赞(0）回复(0）举报 2022-11-09

我来回答

scrapy 使用“ meta”传递参数时遇到错误

1条答案

相关问题

热门标签

最新问答