我在python上运行了一个代码。它是关于spark mllib algprithms的。输出给出了这样的阶段。
[Stage 20:> (0 + 32) / 32]
[Stage 20:> (0 + 32) / 32]
[Stage 20:> (0 + 32) / 32]
[Stage 20:> (0 + 32) / 32]
[Stage 20:> (0 + 32) / 32]
[Stage 20:> (0 + 32) / 32]
...
[Stage 20:============>(31 + 1) / 32]
但它在[阶段20:>(0+32)/32]上花费了太多时间。阶段是(0+32)很长的时间。有什么问题还是正常的?我用小数据尝试了相同的代码,没有问题。但大数据就是这样。我的电脑是多处理器(16核)。我应该添加一个关于并行化的设置,还是pyspark自动添加?
暂无答案!
目前还没有任何答案,快来回答吧!