spark是否使用mllib中没有的巨大Dataframe和机器学习算法来提高性能？

41zrol4v 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(520)

关闭。这个问题需要细节或清晰。它目前不接受答案。
**想改进这个问题吗？**通过编辑这个帖子来添加细节并澄清问题。

5个月前关门了。
改进这个问题
我正在用python3训练一个机器学习模型，但这需要很长时间。我有一个非常大的Dataframe，我使用的算法在spark mllib中不可用。通过将我的Dataframe上传到spark并使用非mllib算法，在训练时间方面有什么性能优势吗？
在操作Dataframe方面，我理解操作它会更快，但是如果算法不是分布式的，我不确定它是否会加快训练。我是新来的Spark，不知道我是否理解它正确。

python apache-spark pyspark machine-learning performance

来源：https://stackoverflow.com/questions/63193759/does-spark-improve-performance-with-huge-dataframe-and-machine-learning-algorith

1条答案

按热度按时间

xhv8bpkk1#

是的，spark可以帮助训练模型，即使模型不是spark标准库的一部分。这完全取决于在训练模型时是否利用集群计算的能力。假设您有一个20节点的i3.xlarge集群（每个节点30.5gb的ram），所有节点都并行处理数据以训练您的模型。这基本上是一个610 gb的超级计算机在你的指尖。
如果没有正确构造代码，可能会意外地在驱动程序节点上执行所有计算，并且只使用集群中的一个节点，而使其他节点处于空闲状态。
spark对于在大型数据集上运行模型也很强大。假设您有一个python模型，它接受一组输入并返回一个输出。spark是在500亿行数据上运行这个模型的好方法。
我不知道你为什么会被否决，在我看来这是个很好的问题。

赞(0）回复(0）举报 2021-05-27

我来回答

spark是否使用mllib中没有的巨大Dataframe和机器学习算法来提高性能？

1条答案

相关问题

热门标签

最新问答