我试图从一个网站刮细节,以收集与脚本在R的图片细节。
我需要的是:
- 图像名称(1.jpg)
- 图片说明("一名新兵演示如何正确使用二氧化碳便携式灭火器扑灭外面的小火。")
- 图片来源("图片提供者:詹姆斯·福特纳")
有超过16,000个文件,谢天谢地的是网址是"... asp?photo = 1,2,3,4",所以有一个基本网址没有改变,只是最后一节的图像编号。我希望脚本循环设置编号(我告诉它从哪里开始)或它只是打破时,它到达了一个不存在的页面。
使用下面的代码,我可以得到照片的标题,但只有一行。我想得到的照片学分,这是在一个单独的行;有三个
之间的主要标题和图片信贷。我会很好,如果生成的表有两个或三个空白列,以说明
行,因为我可以稍后删除它们。
library(rvest)
library(dplyr)
link = "http://fallschurchvfd.org/photovideo.asp?photo=1"
page = read_html(link)
caption = page %>% html_nodes(".text7 i") %>% html_text()
info = data.frame(caption, stringsAsFactors = FALSE)
write.csv(info, "photos.csv")
2条答案
按热度按时间toe950271#
用
rvest
和tidyverse
刮除qmb5sa222#
对于映像,可以使用命令行工具
curl
。例如,要下载映像1.jpg
到100.jpg
对于
R
代码,如果您获取整个.text7
部分,则可以随后拆分为标题和照片来源:作为一个循环
我得到了与当前代码不一致的结果,例如,第15页的换行符比第1页多。
TODO:增强字符串提取;切换到将数据添加到 Dataframe “append”方法(相对于预分配和插入)。