爬网完成后,我们在哪里可以通过nutch的web爬网找到数据?

vqlkdk9b  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(342)

我已经通过ApacheNutch爬过了网站。我已经通过顺序注入、分段、获取、解析、updatedb完成了这个过程。在哪个目录中存在提取的数据?当我在crawldb,segments等所有nutch目录中搜索时,它以不可读的格式显示出来。搜索之后,我给了dump命令,这样我就得到了html格式。这是提取数据的正确方法吗?谢谢您。

vd8tlhqk

vd8tlhqk1#

您可以使用solr来索引这些数据。这样,您就可以通过givin查询过滤数据

http://lucene.apache.org/solr/

相关问题