我喜欢Python中的Beautiful Soup抓取库。它只是工作。在Ruby中是否有类似的东西?
apeeds0o1#
Nokogiri是另一个HTML/XML解析器。根据these benchmarks,它比hpricot快。Nokogiri使用libxml 2,是hpricot的替代品。它还支持css3选择器,这是非常好的。编辑:有一个新的基准比较nokogiri,libxml-ruby,hpricot和rexml here。Ruby Toolbox在HTML解析器here上有一个类别。
qlfbtfca2#
有scRUBYt!,Rubyful-soup(不再维护),WWW::Mechanize,scrAPI和更多。或者你可以只使用Hpricot或Nokogiri进行解析。
qcuzuvrc3#
这个来自Ruby Toolbox的页面包含了一个各种解析器相对流行度的图表。
t8e9dugd4#
Hpricot?我不知道别人用什么.
szqfcxe25#
mechanize不仅仅是一个HTML解析器,所以它不属于Rubytoolbox的HTML parsing类别,而是作为一个类似于Beautiful Soup的语法来查找DOM元素,比如链接,它也是一个多用途的HTTP代理来自动化很多Web内容。
require 'mechanize' agent = Mechanize.new page = agent.get('http://google.com/') page.links.each do |link| puts link.text end
5条答案
按热度按时间apeeds0o1#
Nokogiri是另一个HTML/XML解析器。根据these benchmarks,它比hpricot快。Nokogiri使用libxml 2,是hpricot的替代品。它还支持css3选择器,这是非常好的。
编辑:有一个新的基准比较nokogiri,libxml-ruby,hpricot和rexml here。
Ruby Toolbox在HTML解析器here上有一个类别。
qlfbtfca2#
有scRUBYt!,Rubyful-soup(不再维护),WWW::Mechanize,scrAPI和更多。
或者你可以只使用Hpricot或Nokogiri进行解析。
qcuzuvrc3#
这个来自Ruby Toolbox的页面包含了一个各种解析器相对流行度的图表。
t8e9dugd4#
Hpricot?我不知道别人用什么.
szqfcxe25#
mechanize不仅仅是一个HTML解析器,所以它不属于Rubytoolbox的HTML parsing类别,而是作为一个类似于Beautiful Soup的语法来查找DOM元素,比如链接,它也是一个多用途的HTTP代理来自动化很多Web内容。