使用spark处理20gbcsv文件

ldioqlga  于 2021-05-16  发布在  Spark
关注(0)|答案(2)|浏览(275)

我有一个20gb的csv文件。它可以放入内存(128 gb内存可用),使用spark分析它在性能方面是否有优势?

vi4fp9gy

vi4fp9gy1#

我认为在这种情况下使用spark不会有什么改进。
据我所知,在数据不适合一台机器的情况下,使用spark可以获得很大的改进,它可以帮助您利用集群中多台机器的处理能力。
因此,在这种情况下,您应该尝试使用并行处理,而不是使用spark。

4xy9mtcn

4xy9mtcn2#

如果它能适合你的ram,那么使用spark就不会有任何明显的优势,如果你愿意,你可以尝试使用dask来代替pandas进行并行计算。

相关问题