使用Scrapy抓取imdb中的每个电影站点

holgip5t 于 2022-11-09 发布在其他

关注(0)|答案(1)|浏览(158)

我有一个csv文件，其中包含300部电影的imdb movieID。每部电影的imdb movie url的格式如下：https://www.imdb.com/title/ttmovieID
我想抓取每部电影的缩略图链接、标题、演员和发行年份的专用站点，并将其写入csv文件，其中每行将包含每部电影的数据，
既然我在csv文件中有每部电影的movieID，那么我的spider的start_urls应该是什么？我的parse函数的结构应该是什么？还有，如何将其写入csv文件？
对于imdb的前250个页面，我有以下方法。我应该在start_urls和链接中做什么修改？

import scrapy
import csv
from example.items import MovieItem

class ImdbSpider(scrapy.Spider):
name = "imdbtestspider"
allowed_domains = ["imdb.com"]
start_urls = ['http://www.imdb.com/chart/top',]

def parse(self,response):
     links=response.xpath('//tbody[@class="lister-list"]/tr/td[@class="titleColumn"]/a/@href').extract()
     i=1
     for link in links:
         abs_url=response.urljoin(link)
         url_next='//*[@id="main"]/div/span/div/div/div[2]/table/tbody/tr['+str(i)+']/td[3]/strong/text()'
         rating=response.xpath(url_next).extract()
         if(i <= len(links)):
             i=i+1
         yield scrapy.Request(abs_url, callback=self.parse_indetail, meta={'rating' : rating })

def parse_indetail(self,response):
    item = MovieItem()
    item['title'] = response.xpath('//div[@class="title_wrapper"]/h1/text()').extract()[0][:-1]
    item['director'] = response.xpath('//div[@class="credit_summary_item"]/span[@itemprop="director"]/a/span/text()').extract()

    return item

scrapy

来源：https://stackoverflow.com/questions/54513443/scraping-each-individual-movie-site-in-imdb-using-scrapy

1条答案

按热度按时间

6rqinv9w1#

你可以在start_requests函数中读取你的.csv文件，并从那里产生请求。代码可以是：

import csv
from scrapy import Request
...
def start_requests(self):
    with open('imdb_ids.csv') as csv_file:
        ids = csv.reader(csv_file, delimiter=',')
        line = 0
        for id in ids:
            if line > 0:
                yield Request('https://www.imdb.com/title/ttmovie' + id)
            line+=1

赞(0）回复(0）举报 2022-11-09

我来回答

使用Scrapy抓取imdb中的每个电影站点

1条答案

相关问题

热门标签

最新问答