pytorch PPO / TRPO实施[已结束]

06odsfpq 于 2022-11-09 发布在其他

关注(0)|答案(1)|浏览(147)

**已关闭。**此问题为not about programming or software development。目前不接受答案。

此问题似乎与a specific programming problem, a software algorithm, or software tools primarily used by programmers无关。如果您认为此问题与another Stack Exchange site相关，您可以留下评论，说明在何处可以找到此问题的答案。
9天前关闭。
Improve this question
所以，我最近在PPO上看了这个视频，想用PPO升级我的用PyTorch写的演员评论家算法，但是我不确定新的参数/θ是如何计算的。
文中给出了算法：

要求运行pi_theta_old，计算优势估计值并优化目标，但由于我们尚未更新policy_old，如何计算目标的pi_theta？
编辑：对于所有那些寻找明确答案的人，我已经在Stack Exchange人工智能（https://ai.stackexchange.com/questions/8212/ppo-trpo-implementation）上发布了同样的问题。

pytorch

来源：https://stackoverflow.com/questions/52603085/ppo-trpo-implementation

1条答案

按热度按时间

kpbwa7wx1#

您可以使用pi_theta_old从首次展示中收集行动和优势的对数概率。然后，在培训循环中，使用当前策略计算新的对数概率，以计算替代损失中使用的比率。请注意，对于第一个时段，此“新”对数概率将与收集的首次展示中的对数概率相同，即比率=1。但是，在一个时段之后，该策略将发生更改，您将使用更新后的策略获得不同的日志概率。

赞(0）回复(0）举报 2022-11-09

我来回答

pytorch PPO / TRPO实施[已结束]

1条答案

相关问题

热门标签

最新问答