spark是否使用mllib中没有的巨大Dataframe和机器学习算法来提高性能?

41zrol4v  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(520)

关闭。这个问题需要细节或清晰。它目前不接受答案。
**想改进这个问题吗?**通过编辑这个帖子来添加细节并澄清问题。

5个月前关门了。
改进这个问题
我正在用python3训练一个机器学习模型,但这需要很长时间。我有一个非常大的Dataframe,我使用的算法在spark mllib中不可用。通过将我的Dataframe上传到spark并使用非mllib算法,在训练时间方面有什么性能优势吗?
在操作Dataframe方面,我理解操作它会更快,但是如果算法不是分布式的,我不确定它是否会加快训练。我是新来的Spark,不知道我是否理解它正确。

xhv8bpkk

xhv8bpkk1#

是的,spark可以帮助训练模型,即使模型不是spark标准库的一部分。这完全取决于在训练模型时是否利用集群计算的能力。假设您有一个20节点的i3.xlarge集群(每个节点30.5gb的ram),所有节点都并行处理数据以训练您的模型。这基本上是一个610 gb的超级计算机在你的指尖。
如果没有正确构造代码,可能会意外地在驱动程序节点上执行所有计算,并且只使用集群中的一个节点,而使其他节点处于空闲状态。
spark对于在大型数据集上运行模型也很强大。假设您有一个python模型,它接受一组输入并返回一个输出。spark是在500亿行数据上运行这个模型的好方法。
我不知道你为什么会被否决,在我看来这是个很好的问题。

相关问题