我对hadoop非常陌生,正在阅读《hadoop权威指南》hadoop中流式数据访问的含义是什么?为什么我们说hadoop应用程序的延迟很高。谁能给我解释一下吗?提前谢谢
osh3o9ms1#
对于延迟,我可以说完成时间总是超过30秒,即使您处理的是kb的数据。我不完全知道为什么这么长,但这次是初始化,例如创建作业,确定数据的哪一部分将由哪个工人处理,等等。所以,如果你打算处理小于gb的少量数据,那就不要使用hadoop,只要使用你的电脑就行了。hadoop只适合大数据
r3i60tvu2#
好的..让我试试..“流式数据访问”意味着不再以数据包或数据块的形式读取数据,而是以恒定的比特率连续读取数据,就像自来水一样。应用程序从文件的开头开始读取数据,并继续以顺序方式读取数据,而不进行随机查找。说到问题的第二部分,据说hadoop应用程序的延迟很高,因为最初的几秒钟用于作业提交、资源分配、拆分创建、mapper创建等活动。hth公司
ztmd8pv53#
它指的是hdfs操作是读密集型的,而不是写密集型的。在一个典型的场景中,只有当源数据是最新的并且确保您拥有最新的数据集时,才将用于分析的源数据加载到hdfs中。在分析过程中,会复制原始数据(几乎以其整个形式)。然后将对复制的数据调用mapreduce操作。正如您所看到的,它与通常的存储和处理之间的关系不同。在正常操作中(想想你的pc/mac),理想情况下你会希望文件能够快速打开,这是低延迟的,并且保持较小的文件大小使之可行。由于hdfs倾向于使用千兆字节(1000gbs),延迟将很高,但相比之下,使用大型数据集更容易。
3条答案
按热度按时间osh3o9ms1#
对于延迟,我可以说完成时间总是超过30秒,即使您处理的是kb的数据。我不完全知道为什么这么长,但这次是初始化,例如创建作业,确定数据的哪一部分将由哪个工人处理,等等。
所以,如果你打算处理小于gb的少量数据,那就不要使用hadoop,只要使用你的电脑就行了。hadoop只适合大数据
r3i60tvu2#
好的..让我试试..“流式数据访问”意味着不再以数据包或数据块的形式读取数据,而是以恒定的比特率连续读取数据,就像自来水一样。应用程序从文件的开头开始读取数据,并继续以顺序方式读取数据,而不进行随机查找。
说到问题的第二部分,据说hadoop应用程序的延迟很高,因为最初的几秒钟用于作业提交、资源分配、拆分创建、mapper创建等活动。
hth公司
ztmd8pv53#
它指的是hdfs操作是读密集型的,而不是写密集型的。在一个典型的场景中,只有当源数据是最新的并且确保您拥有最新的数据集时,才将用于分析的源数据加载到hdfs中。
在分析过程中,会复制原始数据(几乎以其整个形式)。然后将对复制的数据调用mapreduce操作。
正如您所看到的,它与通常的存储和处理之间的关系不同。在正常操作中(想想你的pc/mac),理想情况下你会希望文件能够快速打开,这是低延迟的,并且保持较小的文件大小使之可行。
由于hdfs倾向于使用千兆字节(1000gbs),延迟将很高,但相比之下,使用大型数据集更容易。