hadoop生产基础设施-存储dilema

lymgl2op 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(612)

几个月前，我设法建立了一个非常基本的hadoop集群，只使用3台虚拟机2作为namenode（active和standby），1作为datanode。我甚至安装了zookeeper来为namenode启用ha。另外，我使用namenode作为datanode（我知道这在生产环境中是不重要的），我只是为了测试而做的。我所做的安装基本上是通过下载hadoop和其他二进制文件，而不是使用任何cdh安装，只是为了了解底层配置文件以及它如何影响安装。
这三个vm的存储空间被Map到一个来自nfs的专用卷共享（我们已经安装并使用了nfs基础设施）。
现在在玩了所有的设置和安装，我们已经决定移动固件和设置一个生产环境。首先，这是一个非常基本的集群，最多有4-5个数据节点。我计划购买两台高端服务器作为namenode和备用namenode。而对于datanode，我很困惑。
我们不会使用mapreduce框架，而是计划使用ApacheSpark。因此，我们的工作将是记忆密集型的Spark被使用。因此，我的基本理解是，这些datanode的内存（ram）应该位于更高端，以便运行spark worker守护进程。那么datanode的存储空间呢？是否必须使用本地硬盘空间在datanode中存储数据？或者我可以像在测试环境中那样将存储Map到nfs卷。
有人能告诉我通过nfs而不是物理本地存储在datanode上设置存储的利弊吗？特别是当我计划运行spark作业时。这会影响处理速度吗？
此外，nfs基础设施还具有raid功能。所以在这种情况下，我甚至应该费心在hadoop中设置复制因子—如果我最终使用nfs进行存储的话。
对不起，这些问题，希望有人能澄清这个歧义。

hadoop hdfs apache-spark storage nfs

来源：https://stackoverflow.com/questions/40622981/hadoop-production-infrastructure-storage-dilema

1条答案

按热度按时间

i86rm4rw1#

与使用集中式存储（如san、nas）相比，本地存储（或das-直连存储）提供了更好的iops（好吧，我知道，hadoop是在每个节点都有本地计算、内存和存储的商用硬件的前提下诞生的）。
因此，我想说，如果您对从nfs获得的iops没有问题，那么一定要记住，您必须将其表示为hdfs。如果您的raid满足您的要求，那么可以使用1作为复制因子，并节省存储成本。
如果您不打算使用mapreduce和nfs作为存储，并且对spark感兴趣，那么您不需要hadoop/hdfs，您可以直接在裸机（或vm）上安装spark，而不需要hadoop，并且做任何您想做的事情。

赞(0）回复(0）举报 2021-05-30

我来回答

hadoop生产基础设施-存储dilema

1条答案

相关问题

热门标签

最新问答