pytorch 在路径搜索问题中使用强化学习时,如何设置奖励函数?

8cdiaqws  于 2023-11-19  发布在  其他
关注(0)|答案(1)|浏览(123)

我创建了一个环境,有一个微小的随机影响,没有任何障碍,一个代理可以四处移动,以找到从起点到目的地的方式。首先,我使用贪婪策略加载20000种方式作为样本来训练NN,然后我希望我的NN可以独立地创建从起点到目的地的方式。但不知何故,它从来没有工作过,NN无法到达目的地,无论我尝试了多少次。
我想这可能是奖励函数的问题,所以我使用了两个不同的奖励函数:

  1. r=-1(未到达)/r=100(到达)
  2. r=exp(-dis_now/dis_all)但还是不行,有没有人给予我一些宝贵的建议?我会在ofc的同时阅读更多的论文。非常感谢!
n8ghc7c1

n8ghc7c11#

好了,我找到了一个完美的奖励函数,实际上解决了我的问题,它是:r = 1/dis_现在这是一个简单但有效的函数,因为它在接近目的地时提供了强大的奖励,当到达目的地的设定半径时,代理会停止并结束该轮,所以我不需要担心奖励可能会太大。

相关问题