hdfs、hadoop中的低延迟数据访问

j9per5c4  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(1078)

我正在阅读关于大数据和hadoop的教程,我在hdfs上找到了这两点
流数据访问:读取整个数据集的时间比读取第一个数据集的延迟更重要。hdfs建立在一次写入多次读取模式上。
&
低延迟数据访问:需要很少时间访问第一个数据的应用程序不应该使用hdfs,因为它重视的是整个数据,而不是获取第一条记录的时间。
我很困惑,因为第一个说读取整个数据集的时间更重要,而第二个说…不应该使用hdfs,因为它重视整个数据集
我不明白你期望什么?我是hadoop新手。

llmtgqce

llmtgqce1#

流数据访问:
hdfs基于“一次写入,多次读取”的原则,其主要目的是以最快的方式读取完整的数据集,这比花时间从数据集中提取单个记录更为重要。
根据hadoop:权威指南
mapreduce基本上是一个批处理系统,不适合交互式分析。不能在几秒钟或更短的时间内运行查询并返回结果。查询通常需要几分钟或更长时间,因此最好是离线使用,因为处理循环中没有人在等待结果。
mapreduce非常适合需要以批处理方式分析整个数据集的问题。rdbms适用于点查询或更新,在点查询或更新中,数据集已被索引,以提供相对少量数据的低延迟检索和更新时间。mapreduce适用于数据只写一次,多次读取的应用程序,而关系数据库则适用于不断更新的数据集。
延迟:请参考下面这个什么是数据的低延迟访问?

相关问题