我正在用R编写代码,并构建一个Web抓取脚本,以便在Google上以编程方式搜索产品图片并将其下载到一个文件夹中。我有一个for循环,里面有一个步骤,可以从GoogleImage结果页面获取图像URL
#Define the desired Google image search page
page <- read_html("https://www.google.com/search?q=Djeco%20DD04490%20image&tbm=isch&tbs=isz:lt,islt:0.5")
#Fetch the image urls programatically
image_urls <- page %>% html_nodes(".rg_i") %>% html_attr("data-src")
#Continue the rest flow and download the image jpg files from the image url list
...
字符串
但是,image_urls
始终为空,无法继续。我该如何解决这个问题并从示例页面中获取图像URL?
1条答案
按热度按时间oxf4rvwz1#
您可以在
td
标记中的a
标记的href
属性中找到所有链接。然后,您可以使用字符串解析来获取URL:字符串
导致:
型
创建日期:2023年7月30日,使用reprex v2.0.2