我试图分析大约50-60 gb的数据。我想过使用spark来实现这一点,但是我不能访问集群中的多个节点。这个级别的处理可以使用spark独立模式完成吗?如果是,我想知道处理数据所需的估计时间。谢谢!
snvhrwxg1#
简而言之:是的。spark将把这个文件分成许多较小的块。在您的情况下,一次只执行几个块。这几个块应该放在内存中(您需要使用配置来获得正确的结果)总而言之,您将能够做到这一点,但如果您有更多的内存/内核,这样您就可以并行处理更多的事情,速度会更快。
1条答案
按热度按时间snvhrwxg1#
简而言之:是的。
spark将把这个文件分成许多较小的块。在您的情况下,一次只执行几个块。这几个块应该放在内存中(您需要使用配置来获得正确的结果)
总而言之,您将能够做到这一点,但如果您有更多的内存/内核,这样您就可以并行处理更多的事情,速度会更快。