我的桌面上有一个HTML文件(在chrome中,右键单击网页,选择“另存为”,然后选择“网页,HTML”)。我如何将这个本地文件读入R?在R中,我需要编写一些正则表达式来解析字符串并提取某些值。
oxiaedzo1#
按如下方式使用readLines
readLines
rawHTML <- paste(readLines("path/to/file.html"), collapse="\n")
js5cn81o2#
现在,一个更好(也更快)的方法是使用tidyverse中包含的xml2::read_html,它可以从本地文件或URL读取html内容。
xml2::read_html
library(xml2) rawHTML <- read_html(x = "path/to/file.html")
由于此函数可以从本地文件或URL读取html内容,因此它为基于rvest库构建的html提取自动化提供了输入灵活性。
rvest
uelo1irk3#
另一种可能是htmltools的includehtml():
htmltools
includehtml()
rawHTML <- includeHTML('path/to/file.html') class(rawHTML) [1] "html" "character"
3条答案
按热度按时间oxiaedzo1#
按如下方式使用
readLines
js5cn81o2#
现在,一个更好(也更快)的方法是使用tidyverse中包含的
xml2::read_html
,它可以从本地文件或URL读取html内容。由于此函数可以从本地文件或URL读取html内容,因此它为基于
rvest
库构建的html提取自动化提供了输入灵活性。uelo1irk3#
另一种可能是
htmltools
的includehtml()
: