nutch crawler的hbase独立模式与伪分布式模式

ocebsuys  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(202)

我在为三个较小的网站运行nutch crawler。每天我在一台机器上爬行<500k个网址。根据客户的意愿,hadoop集群不会有2台以上的机器组成的集群。只有一个服务器示例。
我知道生产中不建议使用独立和伪分布式模式,但是。。。
问题1:这些模式中哪一种是“小邪恶”—nutch是这样写的,这样就可以在一台机器上运行了。以下哪种模式适用于此场景?
问题2:目前我们在独立模式下运行hbase,有时hbase只是崩溃,日志中没有任何内容。hmaster停止,如果不修复元并修复不一致(连接被拒绝),则无法重新启动。这样的错误会是由独立模式引起的吗?
注1:我们不需要hadoop数据复制,因为URL的数量很少。
注2:我们不需要hadoop作业的并行性,因为url的数量很少
由于注1、2,我认为普通文件系统应该足够了,而hdfs是不必要的。我说得对吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题