nutch+solr仅在顶级页面上

czfnxgou 于 2021-06-04 发布在 Hadoop

关注(0)|答案(2)|浏览(280)

我一直在尝试使用nutch在我的url文件的域的第一页上爬行，然后使用solr在爬行的数据中搜索关键字。到目前为止，我还没有能够得到任何这样的工作方式，除非这两个网页是链接在一起。
我意识到这可能是一个页面没有传入链接的问题，因此pagerank算法会丢弃页面内容。我试着调整参数，使不在图中的url的默认分数更高，但仍然得到相同的结果。
有什么人知道，可以建立一个网页索引没有传入链接？
谢谢！

Java hadoop solr nutch

来源：https://stackoverflow.com/questions/20157173/nutch-solr-on-top-level-page-only

2条答案

按热度按时间

vsmadaxz1#

尝试使用nutch inject命令将“no incomming link”url插入nutch db。
我猜，如果在solr索引中看不到任何内容，那是因为nutch db中没有存储这些url的数据（因为nutch会注意将其db与索引同步）。数据库中没有数据可能是因为URL是隔离的，因此可以尝试使用inject命令来包含这些站点。
我将尝试实际查看内部数据库以验证nutch行为，因为在索引中插入值之前，nutch将数据存储在其数据库中。
分配更高的分数没有任何效果，因为只要数据在索引中，lucene就会给你一个结果。

赞(0）回复(0）举报 2021-06-04

fnx2tebb2#

solr现在默认使用tika读取html文件，所以这不是问题。
http://wiki.apache.org/solr/tikaentityprocessor
如果你想要的只是列出的页面，有没有一个具体的理由使用nutch爬虫？或者你可以直接把url输入solr然后从那里开始？

赞(0）回复(0）举报 2021-06-04