我在pytorch中实现了一个基于gru的网络,我使用笔记本电脑中的4gbgpu来训练它,显然这需要很多时间(1个epoch需要4个多小时)。我正在寻找如何将这种深度学习模式转变为在几个spark集群上进行培训的想法/线索。
到目前为止,我只遇到了这个名为sparktorch的github库,不幸的是,它的文档有限,而且提供的示例太琐碎了。https://github.com/dmmiller612/sparktorch
总而言之,我正在寻找以下两个问题的答案:
在spark clusters上训练深度学习模型是个好主意吗?因为我在一些地方读到,通信开销会影响训练速度的提高
如何转换pytorch模型(和底层数据集),以便跨工作节点执行分布式培训。
任何线索都很感激。
暂无答案!
目前还没有任何答案,快来回答吧!