我们知道添加更多的数据节点可以提高hadoop的性能。我的问题是:如果我们只想检索数据而不需要对其进行处理或分析,那么添加更多的数据节点是否有用?或者它根本不会提高性能,因为我们只有检索操作而没有任何计算或map reduce作业?
erhoui1w1#
我将试着分部分回答:如果您只从hadoop集群或hdfs检索信息,那么它与 Cat 命令,意思是只读取数据而不进行处理。如果你想在你的数据上做一些计算,比如sum,avg或者任何其他的聚合函数,那么reduce的概念就出现了,于是map reduce就出现了。因此,当您的数据非常庞大并且您也进行计算时,hadoop是有用的或有价值的。我认为,在hdfs中读取少量数据比在hdfs中读取大量数据没有什么性能优势(就像您定期将数据存储在rdbms中,每天只查询select*语句一样),但是当您的数据呈指数增长并且您想要进行计算时,您的rdbms查询将需要时间来执行。为了让map reduce在巨大的数据集上高效地工作,您需要有大量的节点和计算能力,这取决于您的用例。
Cat
1条答案
按热度按时间erhoui1w1#
我将试着分部分回答:
如果您只从hadoop集群或hdfs检索信息,那么它与
Cat
命令,意思是只读取数据而不进行处理。如果你想在你的数据上做一些计算,比如sum,avg或者任何其他的聚合函数,那么reduce的概念就出现了,于是map reduce就出现了。
因此,当您的数据非常庞大并且您也进行计算时,hadoop是有用的或有价值的。我认为,在hdfs中读取少量数据比在hdfs中读取大量数据没有什么性能优势(就像您定期将数据存储在rdbms中,每天只查询select*语句一样),但是当您的数据呈指数增长并且您想要进行计算时,您的rdbms查询将需要时间来执行。
为了让map reduce在巨大的数据集上高效地工作,您需要有大量的节点和计算能力,这取决于您的用例。