我正在尝试抓取确实,但当我运行代码以获取Job description时,我得到了部分结果example,total jobs = 1500,total links = 1500,description = less than 1500,有时当我运行特定的块来获取描述时,结果也会发生变化。我将感谢您的帮助,了解如何获得所有的值或如何更改NA的缺失结果。
library(ralger)
#Search Method
base_link <- "https://www.indeed.com/jobs?q&l=mexico&from=searchOnHP&vjk=c339451b33a29c91"
links <- paste0(base_link, 1:100)
#Getting link
scraped_url<- attribute_scrap(links, node = '[data-hide-spinner = "true"]', attr = 'href')
job_url <- paste0("https://www.indeed.com",scraped_url)
#Getting Job Description
job_description <- scrap(link = job_url, node = '.jobsearch-jobDescriptionText')
#Creating Data Frame
df <- data.frame(job_description,job_url)
Error in data.frame(fullds, job_description, job_url) :
arguments imply differing number of rows: 1500, 1485
1条答案
按热度按时间nhhxz33t1#
我已经能够用以下代码提取RSelenium的职位描述.我认为你是不能够提取与R包ralger网站的所有信息,因为页面是不是完全加载在你提取信息的时刻. RSelenium允许页面加载时,我们提取网站的信息.我添加了一个例子下面的一个链接.