我一直在尝试用scrapy为editorial data刮取此页
在编辑委员会成员部分中,54个div标签中有54个编辑器。
我试着从10个div标签中抓取数据,但只得到10个数据。
len(response.css("#moreGeneralEditors>div"))
10和用于获取数据的代码片段
import scrapy
class MdpjournalSpider(scrapy.Spider):
name = 'try'
start_urls = ["https://www.mdpi.com/journal/agrochemicals/editors"]
def parse(self, response):
outer_divs = response.css("div.middle-column__main.ul-spaced div.content__container>div")
for inner_divs in outer_divs:
if inner_divs.css("#moreGeneralEditors")!=[]:
divs = inner_divs.css("#moreGeneralEditors>div")
for inner_div in divs:
if inner_div.css("div.editor-div__content.img-exists")!=[]:
editor = inner_div.css("div.editor-div__content.img-exists:nth-child(2) b::text").get()
role = "editor"
yield {"editor":editor,"role":role}
elif inner_div.css("div.editor-div__content")!=[]:
editor = inner_div.css("div.editor-div__content:nth-child(1) b::text").get()
role = "editor"
yield {"editor":editor,"role":role}
有形象的编辑和没有形象的编辑是两个等级的,我只关心这个编委会成员,期刊上所有的编辑数据都有这个问题,这里是所有期刊列表的链接all journals
1条答案
按热度按时间uplii1fm1#
你只得到10个项目,因为其余的44个项目是通过API从外部源动态加载的。所以你必须使用API url来代替。
范例:
输出: