Expressing Arbitrary Reward Functions as Potential-Based Advice论文阅读
Abstract 在强化学习领域,结合外部的知识是个很重要的问题。基于势能的reward shaping为agent提供了指定形式的additional reward,这种做法是能保证最优策略不
2025-1-31650
Abstract 在强化学习领域,结合外部的知识是个很重要的问题。基于势能的reward shaping为agent提供了指定形式的additional reward,这种做法是能保证最优策略不
