我需要从网站上获取一些元标记。HTMLAgilityPack是很好的。我唯一的问题是,它得到了整个网站,并通过它过滤。我想知道是否有一种方法,只有刮头部部分没有身体,因为我真的不需要它在这种情况下。
这是我的想法
url = "some website"
var getHtmlDoc = new HtmlWeb();
var document = getHtmlDoc.Load(url); //document gets the entire website
var metaTags = document.DocumentNode.SelectNodes("//meta");
我尝试做的是找到一种方法,让getHtmlDoc.Load(url)
在获取数据时离开主体。
先谢了。
1条答案
按热度按时间waxmsbnn1#
我不认为您所要求的是
HtmlWeb
所能实现的,但是对于一个合适的HTTP客户端(如this),您可以在请求中使用Range报头。响应可能不包含完整的
<head>
元素。由于选择正确的范围只是猜测,您可能需要选择一个足够高的值并实现一个后备。