在我使用Rselenium做的一个个人网页抓取项目中,我已经解析了一大块HTML文本。我现在需要提取包含在“data:[ ... ]”并将其放入列表中,以便进一步单独获取每个组件。我是如何得到这段代码的:
remDr$findElement("xpath","/html/body/div[1]/div[1]/div/div[2]/div/div/div[2]/div[4]/div[2]/div[1]/dl/dd[3]/a")$clickElement()
textprog<-remDr$findElement("xpath","/html/body/div[1]/div[1]/div/div[2]/div/div/div[2]/div[4]/div[2]/div[2]/div[3]/div/div/script")$getElementAttribute('outerHTML')[[1]]
doc<-htmlParse(textprog)
而doc给出以下输出:
我需要得到“数据”中包含的数字:[ 3,9,73,81,0,95,9,67,96,]”到一个列表中,我可以单独提取每个值,并将它们附加到另一个值上,因为这些是我试图获得的整体值的小数。我对字符串提取不是很有信心,并且在使用stackoverflow上的其他帖子时没有取得太大进展。
1条答案
按热度按时间yhxst69z1#
您可以考虑以下方法: