探索与利用的平衡：PPO算法中熵奖励的调优实践

Sat, 13 Sep 2025 13:47:38 +0800

混沌代理——Breakout基线 #3

正如莎士比亚曾写道：

利用还是探索，这是个问题。
是默然忍受已知安全策略的微薄回报，
还是挺身反抗未知状态的海洋，
通过探索发现更好的策略？

这家伙真是超前于他的时代啊！今天我们将深入探讨，在我们仍不完美的MinAtar Breakout智能体中，熵奖励如何影响策略动态。希望到最后，我们能找到一些明确的迹象，以判断熵奖励是过高还是过低。