爬网完成后，我们在哪里可以通过nutch的web爬网找到数据？

vqlkdk9b 于 2021-05-31 发布在 Hadoop

关注(0)|答案(1)|浏览(342)

我已经通过ApacheNutch爬过了网站。我已经通过顺序注入、分段、获取、解析、updatedb完成了这个过程。在哪个目录中存在提取的数据？当我在crawldb，segments等所有nutch目录中搜索时，它以不可读的格式显示出来。搜索之后，我给了dump命令，这样我就得到了html格式。这是提取数据的正确方法吗？谢谢您。

hadoop nutch web-crawler

来源：https://stackoverflow.com/questions/50087333/where-can-we-find-data-through-web-crawling-by-nutch-after-the-crawl-completes