mapreduce—hadoop应用程序中的流数据访问和延迟

zc0qhyus 于 2021-06-03 发布在 Hadoop

关注(0)|答案(3)|浏览(373)

我对hadoop非常陌生，正在阅读《hadoop权威指南》
hadoop中流式数据访问的含义是什么？为什么我们说hadoop应用程序的延迟很高。谁能给我解释一下吗？提前谢谢

hadoop hdfs mapreduce

来源：https://stackoverflow.com/questions/16260535/streaming-data-access-and-latency-in-hadoop-applications

3条答案

按热度按时间

osh3o9ms1#

对于延迟，我可以说完成时间总是超过30秒，即使您处理的是kb的数据。我不完全知道为什么这么长，但这次是初始化，例如创建作业，确定数据的哪一部分将由哪个工人处理，等等。
所以，如果你打算处理小于gb的少量数据，那就不要使用hadoop，只要使用你的电脑就行了。hadoop只适合大数据

赞(0）回复(0）举报 2021-06-03

r3i60tvu2#

好的..让我试试..“流式数据访问”意味着不再以数据包或数据块的形式读取数据，而是以恒定的比特率连续读取数据，就像自来水一样。应用程序从文件的开头开始读取数据，并继续以顺序方式读取数据，而不进行随机查找。
说到问题的第二部分，据说hadoop应用程序的延迟很高，因为最初的几秒钟用于作业提交、资源分配、拆分创建、mapper创建等活动。
hth公司

赞(0）回复(0）举报 2021-06-03

ztmd8pv53#

它指的是hdfs操作是读密集型的，而不是写密集型的。在一个典型的场景中，只有当源数据是最新的并且确保您拥有最新的数据集时，才将用于分析的源数据加载到hdfs中。
在分析过程中，会复制原始数据（几乎以其整个形式）。然后将对复制的数据调用mapreduce操作。
正如您所看到的，它与通常的存储和处理之间的关系不同。在正常操作中（想想你的pc/mac），理想情况下你会希望文件能够快速打开，这是低延迟的，并且保持较小的文件大小使之可行。
由于hdfs倾向于使用千兆字节（1000gbs），延迟将很高，但相比之下，使用大型数据集更容易。

赞(0）回复(0）举报 2021-06-03

我来回答

mapreduce—hadoop应用程序中的流数据访问和延迟

3条答案

相关问题

热门标签

最新问答