hbase—如何使用nutch的解析器作业获取特定页面上引用的所有大纲链接

jgwigjjp  于 2021-06-09  发布在  Hbase
关注(0)|答案(0)|浏览(231)

我使用的是nutch2.2、hbase 0.94和gora 0.4,在执行以下步骤时

1.nutch inject seed.txt
2.nutch generate -batchId 231
3.nutch fetch 231
4.nutch parse 231
5.nutch updatedb 231

我会得到一个特定页面的html内容,比如([http://www.flipkart.com/mens-clothing/t-shirts?otracker=hp_nmenu_sub_men_0_t-shirts])但是当我执行第四步的时候

nutch parse 231

看看我的 webpage 在hbase中创建的表存在 ol(outlink) 列族,但它是空的
如果有人能帮忙的话,如果我得到所有的线索,那对我会有好处的。
提前谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题