性能—按比例加载数PB的数据

3z6pesqy  于 2021-05-29  发布在  Hadoop
关注(0)|答案(3)|浏览(350)

我需要在一秒钟内将数PB的文本数据加载到存储器(ram/ssd)中。
下面是解决上述问题的一些问题。
1) 实际上/理论上可以在一秒钟内加载数PB的数据吗?2) 为了在亚秒内实现PB级数据的快速加载,最好的设计方法是什么。3) 是否有可用的基准方法?。
我可以实现任何一种技术,如hadoop,spark,hpcc等。。。

evrscar2

evrscar21#

“PB…”。。。。一秒钟之内”。说真的?请查看维基百科petabyte:1.000.000 gb!
还要检查维基百科的内存带宽。即使是最快的ram也不能处理超过10gb/s的数据(实际上这要低得多)。
只是好奇:你的用例是什么?

mftmpeh8

mftmpeh82#

不,目前技术上还不可能。甚至ram内存都不够快(更不用说明显的容量限制了)。最快的ssd(m.2驱动器)可以获得大约1.2gb/s的写入速度,而使用raid 0,最多可以达到大约3gb/s的速度。还有经济上的限制,因为这些驱动器本身是相当昂贵的。
所以回答你的问题,这些速度在目前技术上是不可能的。

ncecgwcz

ncecgwcz3#

从hpcc的Angular 。。。
thor设计用于加载数据并支持多个服务器。不过,我听说最大的集群大约有4000台服务器。thor的设计可以长时间(甚至一周)加载大量数据。
另一方面,roxie的设计可以快速提供数据,但不是你想要的…它也不能在一秒钟内提供PB的数据。

相关问题