nutch+solr仅在顶级页面上

czfnxgou  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(280)

我一直在尝试使用nutch在我的url文件的域的第一页上爬行,然后使用solr在爬行的数据中搜索关键字。到目前为止,我还没有能够得到任何这样的工作方式,除非这两个网页是链接在一起。
我意识到这可能是一个页面没有传入链接的问题,因此pagerank算法会丢弃页面内容。我试着调整参数,使不在图中的url的默认分数更高,但仍然得到相同的结果。
有什么人知道,可以建立一个网页索引没有传入链接?
谢谢!

vsmadaxz

vsmadaxz1#

尝试使用nutch inject命令将“no incomming link”url插入nutch db。
我猜,如果在solr索引中看不到任何内容,那是因为nutch db中没有存储这些url的数据(因为nutch会注意将其db与索引同步)。数据库中没有数据可能是因为URL是隔离的,因此可以尝试使用inject命令来包含这些站点。
我将尝试实际查看内部数据库以验证nutch行为,因为在索引中插入值之前,nutch将数据存储在其数据库中。
分配更高的分数没有任何效果,因为只要数据在索引中,lucene就会给你一个结果。

fnx2tebb

fnx2tebb2#

solr现在默认使用tika读取html文件,所以这不是问题。
http://wiki.apache.org/solr/tikaentityprocessor
如果你想要的只是列出的页面,有没有一个具体的理由使用nutch爬虫?或者你可以直接把url输入solr然后从那里开始?

相关问题