从任何URL,我想得到标签内的文本在其头。例如,在下面的截图中,文本“JavaScript -获取给定URL的网页标题- Stack Overflow”是我想要提取的内容。
我一直在尝试用httr
获取标题,但它似乎没有标题:
library(httr)
url_head <- HEAD(url = "https://stackoverflow.com/questions/10940241/getting-the-title-of-a-web-page-given-the-url"))
url_head
给予
Response [https://stackoverflow.com/questions/10940241/getting-the-title-of-a-web-page-given-the-url]
Date: 2023-06-22 10:01
Status: 200
Content-Type: text/html; charset=utf-8
<EMPTY BODY>
也试过
headers(url_head)
但也没有
2条答案
按热度按时间mqkwyuun1#
为此,我会使用{rvest}包。
我们读取URL,得到CSS选择器“head > title”的元素,它读到“get the title tag inside the head tag”,然后我们使用
html_text()
提取文本。创建于2023-06-22带有reprex v2.0.2
fnatzsnv2#
您可以使用
rvest
包,它提供了强大的Web抓取工具:确保安装了
rvest
包。