apachenutch2.3.1获取时的扩展点

5cnsuln7  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(302)

我已经成功地配置了hadoop(2.x)、hbase和nutch2.3.1。我也爬了几个样本页也测试。现在我必须使用开源工具cld2对特定语言进行集中爬网。如果已爬网文档不包含该特定语言,则不应保存该文档(在hbase中),也不应将其索引到solr。在nutchwiki中,在获取时没有给定扩展点。有没有其他可行的方法来做这项工作?

rsaldnfx

rsaldnfx1#

目前,nutch附带的fetchers实现中没有扩展点。如果您考虑一下,您需要获取和解析文档(以提取语言),然后您可以编写自己的文档 IndexingFilter 以便检查文档的语言并决定是否要为其编制索引。
这应该不是很难自己写。另一方面,对于nutch1.x,我们已经有了这个prhttps://github.com/apache/nutch/pull/219 它可以很容易地移植到2.x上,然后您只需要正确的jexl表达式。
我们已经有一个 language-identifier Nutch2.x附带的插件您可能会了解它是如何实现的,并将自己与cld2的集成添加为一个不同的插件。如果您想使用cld2,那么您需要编写一些解析器(连同索引器)来从内容中检测语言。

相关问题