nutch crawler的hbase独立模式与伪分布式模式

ocebsuys 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(202)

我在为三个较小的网站运行nutch crawler。每天我在一台机器上爬行<500k个网址。根据客户的意愿，hadoop集群不会有2台以上的机器组成的集群。只有一个服务器示例。
我知道生产中不建议使用独立和伪分布式模式，但是。。。
问题1：这些模式中哪一种是“小邪恶”—nutch是这样写的，这样就可以在一台机器上运行了。以下哪种模式适用于此场景？
问题2：目前我们在独立模式下运行hbase，有时hbase只是崩溃，日志中没有任何内容。hmaster停止，如果不修复元并修复不一致（连接被拒绝），则无法重新启动。这样的错误会是由独立模式引起的吗？
注1：我们不需要hadoop数据复制，因为URL的数量很少。
注2：我们不需要hadoop作业的并行性，因为url的数量很少
由于注1、2，我认为普通文件系统应该足够了，而hdfs是不必要的。我说得对吗？

hadoop hbase hdfs nutch

来源：https://stackoverflow.com/questions/31516042/hbase-standalone-vs-pseudo-distributed-mode-for-nutch-crawler

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

nutch crawler的hbase独立模式与伪分布式模式

暂无答案！

相关问题

热门标签

最新问答