使用JSOUP实现网络爬虫

文章14 | 阅读 5018 | 点赞0

来源：https://blog.csdn.net/withiter/category_9261928.html

【使用JSOUP实现网络爬虫】使用DOM方法来遍历一个文档

转x33g5p2x 于2021-12-28 转载在其他

字(1.3k)|赞(0)|评价(0)|浏览(364)

问题

你有一个HTML文档要从中提取数据，并了解这个HTML文档的结构。

方法

将HTML解析成一个[Document](http://jsoup.org/apidocs/org/jsoup/nodes/Document.html)之后，就可以使用类似于DOM的方法进行操作。示例代码：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

说明

Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

查找元素

getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)

元素数据

attr(String key)获取属性attr(String key, String value)设置属性
attributes()获取所有属性
id(), className() and classNames()
text()获取文本内容text(String value) 设置文本内容
html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
outerHtml()获取元素外HTML内容
data()获取数据内容（例如：script和style标签)
tag() and tagName()

操作HTML和文本

append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)

阅读更多JSOUP相关文章，请看专栏：《使用JSOUP实现网络爬虫》

版权说明 : 本文为转载文章, 版权归原作者所有版权申明

原文链接 : https://blog.csdn.net/huxiweng/article/details/14166613

内容来源于网络，如有侵权，请联系作者删除！

上一篇：从一个文件加载一个文档

下一篇：使用选择器语法来查找元素

Dom java技术专题网络爬虫

相关文章