我创建了一个环境,有一个微小的随机影响,没有任何障碍,一个代理可以四处移动,以找到从起点到目的地的方式。首先,我使用贪婪策略加载20000种方式作为样本来训练NN,然后我希望我的NN可以独立地创建从起点到目的地的方式。但不知何故,它从来没有工作过,NN无法到达目的地,无论我尝试了多少次。
我想这可能是奖励函数的问题,所以我使用了两个不同的奖励函数:
- r=-1(未到达)/r=100(到达)
- r=exp(-dis_now/dis_all)但还是不行,有没有人给予我一些宝贵的建议?我会在ofc的同时阅读更多的论文。非常感谢!
1条答案
按热度按时间n8ghc7c11#
好了,我找到了一个完美的奖励函数,实际上解决了我的问题,它是:r = 1/dis_现在这是一个简单但有效的函数,因为它在接近目的地时提供了强大的奖励,当到达目的地的设定半径时,代理会停止并结束该轮,所以我不需要担心奖励可能会太大。