我使用this guide从我的本地影院网站上抓取电影标题。我使用Scrapy Spider和CSS解析来完成这项工作。在网站的HTML中,每个电影标题都是这样构造的:
<div class="col-md-12 movie-description">
<h2>Minions: The Rise of Gru<h2>
...
下面是我的代码,它试图抓取这些信息
import scrapy
class CinemaSpider(scrapy.Spider):
name = "cinema"
allowed_domains = ["cannonvalleycinema10.com"]
start_urls = ["https://cannonvalleycinema10.com/"]
def parse(self, response):
movie_names = response.css(".col-md-12.movie-description h2::text").extract()
for movie_name in movie_names:
yield {
'name': movie_name
}
电影院的网站是here。我尝试了各种不同的组合,以获得我正在寻找的标题添加到我的json文件,但不能弄清楚。
如果有帮助的话,我正在运行以下代码:
scrapy runspider .\cinema_scrape.py -o movies.json
我也在正确的目录中。
1条答案
按热度按时间yqlxgs2m1#
该页面是动态加载的,因此您必须一起尝试
scrapy and json
:输出: