我已经通过ApacheNutch爬过了网站。我已经通过顺序注入、分段、获取、解析、updatedb完成了这个过程。在哪个目录中存在提取的数据?当我在crawldb,segments等所有nutch目录中搜索时,它以不可读的格式显示出来。搜索之后,我给了dump命令,这样我就得到了html格式。这是提取数据的正确方法吗?谢谢您。
vd8tlhqk1#
您可以使用solr来索引这些数据。这样,您就可以通过givin查询过滤数据
http://lucene.apache.org/solr/
1条答案
按热度按时间vd8tlhqk1#
您可以使用solr来索引这些数据。这样,您就可以通过givin查询过滤数据