我想用Java来做抓取和apache nutch来是第一选择。我不得不刮动态元素从网站一样的价格和里程的车辆。我已经做了设置,并试图执行nutch的seed.txt url -https://www.andersondouglas.com/used-vehicles/?q=3gncjksb5kl218243。但所有我可以看到的抓取/段是一个文件,其中只包含网址名称。我看不到/找到网页的HTML内容抓取。有人能请帮助。我怎么才能刮的HTML内容。
Apache-螺母版本1.19
我想用Java来做抓取和apache nutch来是第一选择。我不得不刮动态元素从网站一样的价格和里程的车辆。我已经做了设置,并试图执行nutch的seed.txt url -https://www.andersondouglas.com/used-vehicles/?q=3gncjksb5kl218243。但所有我可以看到的抓取/段是一个文件,其中只包含网址名称。我看不到/找到网页的HTML内容抓取。有人能请帮助。我怎么才能刮的HTML内容。
Apache-螺母版本1.19
2条答案
按热度按时间fd3cxomn1#
以下是获取URL和导出所获取页面的HTML的步骤:
1.安装Nutch并按照Nutch tutorial中的说明配置代理名称。除代理名称外,所有其他配置设置均为默认设置。后续步骤在空目录中运行。命令
nutch
代表...nutch_install_path/bin/nutch
。1.将URL放入种子文件:
echo https://nutch.apache.org/ >seeds.txt
1.将种子注入CrawlDb:
nutch inject crawldb seeds.txt
1.生成段:
nutch generate crawldb/ segments/
1.获取生成的段:
nutch fetch segments/20230310113604/
(段名是时间戳,需要进行调整)1.(可选)解析段:
nutch parse segments/20230310113604/
(仅在需要元数据、外部链接或纯文本时才需要)1.获取URL的记录(它包括HTML,但也包括更多信息):
segdump/dump
nutch readseg
以获得更多命令行选项的帮助yyyllmsg2#
页面的原始内容(HTML,但也可以是二进制格式,如PDF)存储在子文件夹“content”的段中。请注意,内容仅存储在
fetcher.store.content
为真(这是默认值)并且