我有一个20gb的csv文件。它可以放入内存(128 gb内存可用),使用spark分析它在性能方面是否有优势?
vi4fp9gy1#
我认为在这种情况下使用spark不会有什么改进。据我所知,在数据不适合一台机器的情况下,使用spark可以获得很大的改进,它可以帮助您利用集群中多台机器的处理能力。因此,在这种情况下,您应该尝试使用并行处理,而不是使用spark。
4xy9mtcn2#
如果它能适合你的ram,那么使用spark就不会有任何明显的优势,如果你愿意,你可以尝试使用dask来代替pandas进行并行计算。
2条答案
按热度按时间vi4fp9gy1#
我认为在这种情况下使用spark不会有什么改进。
据我所知,在数据不适合一台机器的情况下,使用spark可以获得很大的改进,它可以帮助您利用集群中多台机器的处理能力。
因此,在这种情况下,您应该尝试使用并行处理,而不是使用spark。
4xy9mtcn2#
如果它能适合你的ram,那么使用spark就不会有任何明显的优势,如果你愿意,你可以尝试使用dask来代替pandas进行并行计算。