apachenutch2.3.1获取时的扩展点

5cnsuln7 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(302)

我已经成功地配置了hadoop（2.x）、hbase和nutch2.3.1。我也爬了几个样本页也测试。现在我必须使用开源工具cld2对特定语言进行集中爬网。如果已爬网文档不包含该特定语言，则不应保存该文档（在hbase中），也不应将其索引到solr。在nutchwiki中，在获取时没有给定扩展点。有没有其他可行的方法来做这项工作？

hadoop hbase apache nutch

来源：https://stackoverflow.com/questions/46426020/apache-nutch-2-3-1-extension-point-at-fetch-time

1条答案

按热度按时间

rsaldnfx1#

目前，nutch附带的fetchers实现中没有扩展点。如果您考虑一下，您需要获取和解析文档（以提取语言），然后您可以编写自己的文档 IndexingFilter 以便检查文档的语言并决定是否要为其编制索引。
这应该不是很难自己写。另一方面，对于nutch1.x，我们已经有了这个prhttps://github.com/apache/nutch/pull/219 它可以很容易地移植到2.x上，然后您只需要正确的jexl表达式。
我们已经有一个 language-identifier Nutch2.x附带的插件您可能会了解它是如何实现的，并将自己与cld2的集成添加为一个不同的插件。如果您想使用cld2，那么您需要编写一些解析器（连同索引器）来从内容中检测语言。

赞(0）回复(0）举报 2021-06-02

我来回答

apachenutch2.3.1获取时的扩展点

1条答案

相关问题

热门标签

最新问答