我有两台机器。一台机器以伪分布式模式运行hbase 0.92.2,而另一台机器使用nutch 2.x crawler。如何配置这两台机器,使一台带有hbase-0.92.2的机器充当后端存储,另一台带有nutch-2.x的机器充当爬虫程序?
hec6srdp1#
我终于做到了。我很容易做到。我在这里分享我的经验。也许它能帮助别人。1-将hbase-site.xml的配置文件更改为伪分布式模式。2-最重要的事情:在hbase机器上,用实际的网络ip替换/etc/hosts中的localhost ip,如下所示10.11.22.189主本地主机hbase机器的ip=10.11.22.189(注意:如果您不更改hbase机器的localhost ip,远程nutch crawler将无法连接到它)4-将/symlink hbase-site.xml复制到$nutch\u home/conf中5-启动你的爬虫,看看它的工作
1条答案
按热度按时间hec6srdp1#
我终于做到了。我很容易做到。我在这里分享我的经验。也许它能帮助别人。
1-将hbase-site.xml的配置文件更改为伪分布式模式。
2-最重要的事情:在hbase机器上,用实际的网络ip替换/etc/hosts中的localhost ip,如下所示
10.11.22.189主本地主机
hbase机器的ip=10.11.22.189(注意:如果您不更改hbase机器的localhost ip,远程nutch crawler将无法连接到它)
4-将/symlink hbase-site.xml复制到$nutch\u home/conf中
5-启动你的爬虫,看看它的工作