hadoop与mongodb以及hadoop与mongodb之比较

tsm1rwdh  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(1058)

我试图理解mongodb和hadoop之间的关键区别。我知道mongodb是一个数据库,而hadoop是一个包含hdfs的生态系统。使用这两种技术处理数据的方式有一些相似之处,但也有一些主要差异。
我不明白为什么有人会在hadoop集群上使用mongodb,主要是mongodb提供了哪些优于hadoop的优势。两者都执行并行处理,都可以与spark一起用于进一步的数据分析,那么两者之间的附加值是多少呢。
现在,如果要将两者结合起来,为什么要在mongodb和hdfs中存储数据?mongodb有map/reduce,所以为什么要将数据发送到hadoop进行处理,而且两者都与spark兼容呢。

iezvtpos

iezvtpos1#

首先,我们应该知道这两个术语是什么意思。
Hadoop Hadoop是Apache基金会开发的用于大数据分析的开源工具。它是存储和分析大数据最常用的工具。它使用集群体系结构来实现相同的功能。hadoop有一个庞大的生态系统,这个生态系统由一些健壮的工具组成。
mongodb mongodb是一个开源、通用、基于文档的分布式nosql数据库,用于存储大数据。mongodb有一个非常丰富的查询语言,可以获得很高的性能。mongodb是一个基于文档的数据库,这意味着它以类似json格式的文档存储数据。
差异

这两种工具都足以利用大数据。这取决于你的要求。对于某些项目,hadoop是一个很好的选择,而mongodb则非常适合。
希望这能帮助你区分两者。

tnkciper

tnkciper2#

首先让我们看看我们在说什么
hadoop-一个生态系统。两个主要组件是hdfs和mapreduce。
mongodb-文档类型nosql数据库。
让我们在两种工作负载上比较它们
高延迟高吞吐量(批处理)-处理如何处理和分析大量数据的问题。将以并行和分布式方式进行处理,以便以最有效的方式完成和检索结果。hadoop是处理这类问题的最佳方法,它以分布式和并行的方式跨多个服务器管理和处理数据。
低延迟和低吞吐量(立即访问数据、实时结果、大量用户)-在处理需要时,以尽可能快的方式显示即时结果,或进行小型并行处理,从而将nrt结果发送给多个并发用户nosql数据库将是最佳方式。
堆栈中的一个简单示例是使用hadoop来处理和分析大量数据,然后将最终结果存储在mongodb中,以便:
以最快的方式访问它们
重新加工它们,因为它们的规模较小
底线是,你不应该把hadoop和mongodb视为竞争对手,因为它们都有自己的最佳用例和数据处理方法,它们在你的数据工作中相互补充和完善。
希望这有意义。

相关问题