mapreduce—hadoop应用程序中的流数据访问和延迟

zc0qhyus  于 2021-06-03  发布在  Hadoop
关注(0)|答案(3)|浏览(373)

我对hadoop非常陌生,正在阅读《hadoop权威指南》
hadoop中流式数据访问的含义是什么?为什么我们说hadoop应用程序的延迟很高。谁能给我解释一下吗?提前谢谢

osh3o9ms

osh3o9ms1#

对于延迟,我可以说完成时间总是超过30秒,即使您处理的是kb的数据。我不完全知道为什么这么长,但这次是初始化,例如创建作业,确定数据的哪一部分将由哪个工人处理,等等。
所以,如果你打算处理小于gb的少量数据,那就不要使用hadoop,只要使用你的电脑就行了。hadoop只适合大数据

r3i60tvu

r3i60tvu2#

好的..让我试试..“流式数据访问”意味着不再以数据包或数据块的形式读取数据,而是以恒定的比特率连续读取数据,就像自来水一样。应用程序从文件的开头开始读取数据,并继续以顺序方式读取数据,而不进行随机查找。
说到问题的第二部分,据说hadoop应用程序的延迟很高,因为最初的几秒钟用于作业提交、资源分配、拆分创建、mapper创建等活动。
hth公司

ztmd8pv5

ztmd8pv53#

它指的是hdfs操作是读密集型的,而不是写密集型的。在一个典型的场景中,只有当源数据是最新的并且确保您拥有最新的数据集时,才将用于分析的源数据加载到hdfs中。
在分析过程中,会复制原始数据(几乎以其整个形式)。然后将对复制的数据调用mapreduce操作。
正如您所看到的,它与通常的存储和处理之间的关系不同。在正常操作中(想想你的pc/mac),理想情况下你会希望文件能够快速打开,这是低延迟的,并且保持较小的文件大小使之可行。
由于hdfs倾向于使用千兆字节(1000gbs),延迟将很高,但相比之下,使用大型数据集更容易。

相关问题