使用apache nutch上的apache tika插件解析微数据

3z6pesqy  于 2021-06-09  发布在  Hbase
关注(0)|答案(1)|浏览(439)

我的目标是在URL上爬行,提取微数据并保存到solr
我使用这个指南来设置nutch、hbase和solr
我用nutch在url和hbase上爬行,我用tikapluggin为nutch解析页面,但它只得到元数据。
我错过什么了吗?请指导我或建议其他选择

xqkwcwgp

xqkwcwgp1#

您需要实现自己的parsefilter并在那里实现提取逻辑。您将获得由tika解析器生成的documentfragment,并可以使用例如xpath来获取微数据。
请注意,tika生成的dom经过了严格的规范化/修改,因此xpath表达式可能不匹配。或许更好的办法是依赖旧的html解析器。
一种通用的方法是使用apacheany23,例如在这个storm crawler模块中。
顺便说一句,有一个开放的jira微数据处理器在蒂卡尚未提交。
hth公司

相关问题