塑形

Dynamic Potential-Based Reward Shaping将势能塑形奖励函数拓展为F(s,t,s‘,t‘)

摘要基于势能的奖励塑形可以显著降低学习最优策略所需的时间，并且在多agent系统中，可以显著提高最终联合策略的性能。已经证明，它不会改变一个agent单独学习的最优策略或

8月前950