R语言 提取短语和方括号之间的字符串[ ... ]

mqxuamgl  于 2023-04-18  发布在  其他
关注(0)|答案(1)|浏览(173)

在我使用Rselenium做的一个个人网页抓取项目中,我已经解析了一大块HTML文本。我现在需要提取包含在“data:[ ... ]”并将其放入列表中,以便进一步单独获取每个组件。我是如何得到这段代码的:

remDr$findElement("xpath","/html/body/div[1]/div[1]/div/div[2]/div/div/div[2]/div[4]/div[2]/div[1]/dl/dd[3]/a")$clickElement()
textprog<-remDr$findElement("xpath","/html/body/div[1]/div[1]/div/div[2]/div/div/div[2]/div[4]/div[2]/div[2]/div[3]/div/div/script")$getElementAttribute('outerHTML')[[1]]
doc<-htmlParse(textprog)

而doc给出以下输出:

我需要得到“数据”中包含的数字:[ 3,9,73,81,0,95,9,67,96,]”到一个列表中,我可以单独提取每个值,并将它们附加到另一个值上,因为这些是我试图获得的整体值的小数。我对字符串提取不是很有信心,并且在使用stackoverflow上的其他帖子时没有取得太大进展。

yhxst69z

yhxst69z1#

您可以考虑以下方法:

library(stringr)

my_String <- "data: [ 3, 9, 73, 81, 0, 95, 9, 67, 96, ]"
numbers <- stringr::str_extract_all(my_String, "\\d{1,2}\\,")[[1]]
numbers <- stringr::str_replace_all(numbers, "\\,", "")
numbers <- as.numeric(numbers)

[1]  3  9 73 81  0 95  9 67 96

相关问题