ApacheNutch中是否有任何插件可以用原始内容索引webhtml和PDF,这样格式就不会丢失。我们还可以用nutch抓取html文件中的内部pdf链接吗?
eeq64g8w1#
确保在nutch|u site.xml属性plugin.includes | parse-(text | html | pdf)中包含|
bhmjp9jg2#
对于pdf,没有现成的东西。nutch使用tika并尝试提取纯文本。您可以编写自己的插件(例如使用pdfbox)并尝试提取有关文档的格式信息。请记住,pdf文件的原始内容没有多大意义。可能您可以尝试将pdf转换为html/xml,然后尝试理解其结构。可能是一个图书馆,例如:http://pdfx.cs.man.ac.uk/example 对你有意义。不做些实验是不可能知道的。关于“内部链接”,您是指同一文档中的链接,还是指内容的pdf中指向其他文档/网页的链接?如果你指的是pdf中的内部链接,根据库的不同,你可能会这样做。请记住,pdf不是一种容易处理的格式。tika/pdfbox项目在简化这项任务方面做了一项惊人的工作,即使投入了所有的时间/精力,也有一些边缘文件是“有问题的”。只是一个小小的警告?。
2条答案
按热度按时间eeq64g8w1#
确保在nutch|u site.xml属性plugin.includes | parse-(text | html | pdf)中包含|
bhmjp9jg2#
对于pdf,没有现成的东西。nutch使用tika并尝试提取纯文本。您可以编写自己的插件(例如使用pdfbox)并尝试提取有关文档的格式信息。
请记住,pdf文件的原始内容没有多大意义。可能您可以尝试将pdf转换为html/xml,然后尝试理解其结构。可能是一个图书馆,例如:http://pdfx.cs.man.ac.uk/example 对你有意义。不做些实验是不可能知道的。
关于“内部链接”,您是指同一文档中的链接,还是指内容的pdf中指向其他文档/网页的链接?如果你指的是pdf中的内部链接,根据库的不同,你可能会这样做。
请记住,pdf不是一种容易处理的格式。tika/pdfbox项目在简化这项任务方面做了一项惊人的工作,即使投入了所有的时间/精力,也有一些边缘文件是“有问题的”。只是一个小小的警告?。