Expressing

Expressing Arbitrary Reward Functions as Potential-Based Advice论文阅读

Abstract 在强化学习领域，结合外部的知识是个很重要的问题。基于势能的reward shaping为agent提供了指定形式的additional reward，这种做法是能保证最优策略不

2025-1-31650