pytorch 在路径搜索问题中使用强化学习时，如何设置奖励函数？

8cdiaqws 于 2023-11-19 发布在其他

关注(0)|答案(1)|浏览(123)

我创建了一个环境，有一个微小的随机影响，没有任何障碍，一个代理可以四处移动，以找到从起点到目的地的方式。首先，我使用贪婪策略加载20000种方式作为样本来训练NN，然后我希望我的NN可以独立地创建从起点到目的地的方式。但不知何故，它从来没有工作过，NN无法到达目的地，无论我尝试了多少次。
我想这可能是奖励函数的问题，所以我使用了两个不同的奖励函数：

r=-1（未到达）/r=100（到达）
r=exp（-dis_now/dis_all）但还是不行，有没有人给予我一些宝贵的建议？我会在ofc的同时阅读更多的论文。非常感谢！

来源：https://stackoverflow.com/questions/77359153/how-to-set-reward-function-when-using-reinforcement-learning-in-path-searching-p

1条答案

按热度按时间

好了，我找到了一个完美的奖励函数，实际上解决了我的问题，它是：r = 1/dis_现在这是一个简单但有效的函数，因为它在接近目的地时提供了强大的奖励，当到达目的地的设定半径时，代理会停止并结束该轮，所以我不需要担心奖励可能会太大。

赞(0）回复(0）举报 2023-11-19

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前