我需要关于这个特定场景的帮助。
- 设想**
1.调用部位
http://www.example.com/index.php
我可以从<script>
标记中获取此信息
https://www.example.com/anotherpage.php?key=ABCDFG
使用密钥,我必须调用此端点
https://www.example.com/login.php?key=ABCD
用于检索存储在javascript响应中的会话ID
-- omitted
private._sessID='MYSESSIONID';
-- omitted
最后,使用这个sessionId并执行正确的POST操作,我就可以在所有需要的页面中导航了。
"我的僵局"
我可以使用scrapy shell
和regEx
模拟所有步骤(而且都运行良好),但是我不知道在开始数据提取之前如何在scrappy spider中管理这些步骤。
有人能帮我吗?
1条答案
按热度按时间taor4pac1#
您需要从基本URL
http://www.example.com/index.php
开始,方法是在启动请求方法中调用它,并编写其回调函数,从其他端点提取信息,然后将结果带入其他回调函数,然后您可以启动scraping进程。您需要按以下方式实现