我尝试使用scrapy从wayback机器上存档的网站上抓取文本内容,使用中间件:scrapy_wayback-machine。但是,它似乎不起作用。
最近有人用过scrapy_wayback-machine吗?有谁知道scrapy是什么版本的吗?
有没有其他软件包可以很好地与wayback machine配合使用?
我运行了一个非常基本的蜘蛛,得到了这个警告:
2023-12-11 18:43:33 [py.warnings] WARNING: /Users/meganegler/opt/anaconda3/lib/python3.9/site-packages/scrapy_wayback_machine/__init__.py:83: ScrapyDeprecationWarning: ExecutionEngine.schedule is deprecated, please use ExecutionEngine.crawl or ExecutionEngine.download instead
self.crawler.engine.schedule(snapshot_request, spider)
字符串
所以,我进入init文件并将'schedule'更改为'crawl',并得到以下警告:
2023-12-11 18:54:52 [py.warnings] WARNING: /Users/meganegler/opt/anaconda3/lib/python3.9/site-packages/scrapy_wayback_machine/__init__.py:83: ScrapyDeprecationWarning: Passing a 'spider' argument to ExecutionEngine.crawl is deprecated
self.crawler.engine.crawl(snapshot_request, spider)
型
这就是让我相信存在版本不兼容性的原因。
1条答案
按热度按时间wj8zmpe11#
你可能不得不使用一个粗糙的1.X版本,也许可以尝试1.8;尽管由于Wayback Machine的变化,它可能已经过时了。