我正在努力学习scrapy framework中“ meta”的用法。我正在尝试抓取的网站是“http://quotes.toscrape.com/“,我的要求是抓取第一页的“引用”、“作者”和作者的出生日期,其中前两个在第一级页面上,作者的出生日期在第二级页面上,我需要使用“meta”来传达引用和作者。
下面是我的代码,我的输出命令,它运行为“nothing”,我不知道是什么原因导致的,所以我在这里寻求帮助。
第一个
我正在努力学习scrapy framework中“ meta”的用法。我正在尝试抓取的网站是“http://quotes.toscrape.com/“,我的要求是抓取第一页的“引用”、“作者”和作者的出生日期,其中前两个在第一级页面上,作者的出生日期在第二级页面上,我需要使用“meta”来传达引用和作者。
下面是我的代码,我的输出命令,它运行为“nothing”,我不知道是什么原因导致的,所以我在这里寻求帮助。
第一个
1条答案
按热度按时间mhd8tkvw1#
删除
callback=self.parse_date()
中的括号您可以改进的地方:
1.学习xapth的基础知识,也许你可以找到一个Xpath cheatsheet,去掉正则表达式,因为在这段代码中它真的是不必要的。它也会帮助你在未来更复杂的网页中,你的选择器会更短,更容易阅读。
1.您可以在for循环中声明该项,并将其传递给回调函数,而不是发送多个值。
1.你可以用cb_kwargs来代替
meta
。我觉得用...1.不是一个错误,但阅读有关response.follow,当然你也可以使用
urljoin
。