将本地HTML文件读入R

yuvru6vn  于 2023-01-10  发布在  其他
关注(0)|答案(3)|浏览(109)

我的桌面上有一个HTML文件(在chrome中,右键单击网页,选择“另存为”,然后选择“网页,HTML”)。我如何将这个本地文件读入R?在R中,我需要编写一些正则表达式来解析字符串并提取某些值。

oxiaedzo

oxiaedzo1#

按如下方式使用readLines

rawHTML <- paste(readLines("path/to/file.html"), collapse="\n")
js5cn81o

js5cn81o2#

现在,一个更好(也更快)的方法是使用tidyverse中包含的xml2::read_html,它可以从本地文件或URL读取html内容。

library(xml2)
rawHTML <- read_html(x = "path/to/file.html")

由于此函数可以从本地文件或URL读取html内容,因此它为基于rvest库构建的html提取自动化提供了输入灵活性。

uelo1irk

uelo1irk3#

另一种可能是htmltoolsincludehtml()

rawHTML <- includeHTML('path/to/file.html')

class(rawHTML)
[1] "html"      "character"

相关问题