pytorch实现的gru网络python分布式训练

wtlkbnrh  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(303)

我在pytorch中实现了一个基于gru的网络,我使用笔记本电脑中的4gbgpu来训练它,显然这需要很多时间(1个epoch需要4个多小时)。我正在寻找如何将这种深度学习模式转变为在几个spark集群上进行培训的想法/线索。
到目前为止,我只遇到了这个名为sparktorch的github库,不幸的是,它的文档有限,而且提供的示例太琐碎了。https://github.com/dmmiller612/sparktorch
总而言之,我正在寻找以下两个问题的答案:
在spark clusters上训练深度学习模型是个好主意吗?因为我在一些地方读到,通信开销会影响训练速度的提高
如何转换pytorch模型(和底层数据集),以便跨工作节点执行分布式培训。
任何线索都很感激。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题