hadoop与mongodb以及hadoop与mongodb之比较

tsm1rwdh 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(1058)

我试图理解mongodb和hadoop之间的关键区别。我知道mongodb是一个数据库，而hadoop是一个包含hdfs的生态系统。使用这两种技术处理数据的方式有一些相似之处，但也有一些主要差异。
我不明白为什么有人会在hadoop集群上使用mongodb，主要是mongodb提供了哪些优于hadoop的优势。两者都执行并行处理，都可以与spark一起用于进一步的数据分析，那么两者之间的附加值是多少呢。
现在，如果要将两者结合起来，为什么要在mongodb和hdfs中存储数据？mongodb有map/reduce，所以为什么要将数据发送到hadoop进行处理，而且两者都与spark兼容呢。

hadoop mongodb hadoop2

来源：https://stackoverflow.com/questions/56028700/hadoop-with-mongodb-and-hadoop-vs-mongodb

2条答案

按热度按时间

iezvtpos1#

首先，我们应该知道这两个术语是什么意思。
Hadoop Hadoop是Apache基金会开发的用于大数据分析的开源工具。它是存储和分析大数据最常用的工具。它使用集群体系结构来实现相同的功能。hadoop有一个庞大的生态系统，这个生态系统由一些健壮的工具组成。
mongodb mongodb是一个开源、通用、基于文档的分布式nosql数据库，用于存储大数据。mongodb有一个非常丰富的查询语言，可以获得很高的性能。mongodb是一个基于文档的数据库，这意味着它以类似json格式的文档存储数据。
差异

这两种工具都足以利用大数据。这取决于你的要求。对于某些项目，hadoop是一个很好的选择，而mongodb则非常适合。
希望这能帮助你区分两者。

赞(0）回复(0）举报 2021-05-29

tnkciper2#

首先让我们看看我们在说什么
hadoop-一个生态系统。两个主要组件是hdfs和mapreduce。
mongodb-文档类型nosql数据库。
让我们在两种工作负载上比较它们
高延迟高吞吐量（批处理）-处理如何处理和分析大量数据的问题。将以并行和分布式方式进行处理，以便以最有效的方式完成和检索结果。hadoop是处理这类问题的最佳方法，它以分布式和并行的方式跨多个服务器管理和处理数据。
低延迟和低吞吐量（立即访问数据、实时结果、大量用户）-在处理需要时，以尽可能快的方式显示即时结果，或进行小型并行处理，从而将nrt结果发送给多个并发用户nosql数据库将是最佳方式。
堆栈中的一个简单示例是使用hadoop来处理和分析大量数据，然后将最终结果存储在mongodb中，以便：
以最快的方式访问它们
重新加工它们，因为它们的规模较小
底线是，你不应该把hadoop和mongodb视为竞争对手，因为它们都有自己的最佳用例和数据处理方法，它们在你的数据工作中相互补充和完善。
希望这有意义。

赞(0）回复(0）举报 2021-05-29

我来回答

hadoop与mongodb以及hadoop与mongodb之比较

2条答案

相关问题

热门标签

最新问答