我用的密码是
import scrapy
class JobSpider(scrapy.Spider):
name = 'job'
start_urls = [
'https://jobs.goodlifefitness.com/listjobs/'
]
在Scrapy shell中,我为该链接添加了以下代码:
response.css('div.jobTitle a::attr(href)')
我得到了一个“[ ]“
2条答案
按热度按时间vwkv1x7d1#
这是因为整个页面都是从
javascript
呈现的。获取请求后,如果打开一个本地文件并粘贴html内容,您将看到99%的html是<script>
标签。幸运的是,这些类型的页面很容易用requests-html
库来抓取(不要与requests
库混淆)。例如:
pip install requests-html
输出
tp5buhyn2#
我强烈建议你看一下他们的后端API。你可以使用chrome开发工具或代理来做这件事。
这允许您通过一个请求获取更多的数据。大多数情况下,BackendApis返回Json对象,这些对象非常好用,而不是在html文件中查找数据
我已经找到了你的具体情况的后端api,并写了一个小脚本,希望能做你想要的。
输出量: