60 gb的数据

brjng4g3  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(326)

我试图分析大约50-60 gb的数据。我想过使用spark来实现这一点,但是我不能访问集群中的多个节点。这个级别的处理可以使用spark独立模式完成吗?如果是,我想知道处理数据所需的估计时间。谢谢!

snvhrwxg

snvhrwxg1#

简而言之:是的。
spark将把这个文件分成许多较小的块。在您的情况下,一次只执行几个块。这几个块应该放在内存中(您需要使用配置来获得正确的结果)
总而言之,您将能够做到这一点,但如果您有更多的内存/内核,这样您就可以并行处理更多的事情,速度会更快。

相关问题