我期待着得到这个链接(https://clinicaltrials.gov/ct2/history/NCT04658186)沿着一些行
悬停文本表。
我想要的结果是创建一个数据框,使悬停文本是在同一行作为其在网页上的列。尝试了下面的代码,我可以得到表和跨度文本分开,无法弄清楚如何合并在一起。
library(dplyr)
library(rvest)
# Set the URL of the webpage containing the table
url <- "https://clinicaltrials.gov/ct2/history/NCT04658186"
# Read the HTML code from the webpage
page <- read_html(url)
# Use html_table() to extract the table data
table_data <- page %>%
html_table(fill = TRUE) %>%
.[[1]] # Select the first table on the page
# Use html_nodes() and html_text() to extract the text from span elements within the table
span_text <- page %>% html_nodes("span") %>%
html_attr("title") %>% data.frame()
谢谢你的任何帮助提前。
2条答案
按热度按时间7xzttuei1#
在这种情况下,我们可以循环遍历元素列表(即表行)并从每个项目提取某些位。使用这种方法,我们最终会得到一个正确对齐的列表或向量,可以绑定到以前提取的表:
对于更健壮的方法,我们可以跳过
html_table()
并从每个元素中提取所有所需的细节(这里:tr
)我们自己。这也适用于无表格设计,其中表格数据通过列表或div呈现。创建于2023-06-15带有reprex v2.0.2
zsohkypk2#