java—ApacheNutch中有没有插件可以索引原始内容中的webhtml和PDF

ioekq8ef 于 2021-06-08 发布在 Hbase

关注(0)|答案(2)|浏览(269)

ApacheNutch中是否有任何插件可以用原始内容索引webhtml和PDF，这样格式就不会丢失。我们还可以用nutch抓取html文件中的内部pdf链接吗？

来源：https://stackoverflow.com/questions/49975600/is-there-any-plugin-in-apache-nutch-to-index-both-webhtml-and-pdfs-in-raw-conten

2条答案

按热度按时间

eeq64g8w1#

赞(0）回复(0）举报 2021-06-09

bhmjp9jg2#

对于pdf，没有现成的东西。nutch使用tika并尝试提取纯文本。您可以编写自己的插件（例如使用pdfbox）并尝试提取有关文档的格式信息。
请记住，pdf文件的原始内容没有多大意义。可能您可以尝试将pdf转换为html/xml，然后尝试理解其结构。可能是一个图书馆，例如：http://pdfx.cs.man.ac.uk/example 对你有意义。不做些实验是不可能知道的。
关于“内部链接”，您是指同一文档中的链接，还是指内容的pdf中指向其他文档/网页的链接？如果你指的是pdf中的内部链接，根据库的不同，你可能会这样做。
请记住，pdf不是一种容易处理的格式。tika/pdfbox项目在简化这项任务方面做了一项惊人的工作，即使投入了所有的时间/精力，也有一些边缘文件是“有问题的”。只是一个小小的警告？。

赞(0）回复(0）举报 2021-06-08

我来回答

java—ApacheNutch中有没有插件可以索引原始内容中的webhtml和PDF

2条答案

相关问题

热门标签

最新问答