Reinforcement

Human-level control through deep reinforcement learning

Abstract 强化学习理论在动物行为上，深入到心理和神经科学的角度，关于在一个环境中如何使得智能体优化他们的控制，提供了一个正式的规范。为了利用强化学习成功的接近现实世界

7月前820

人在环路的强化学习（Reinforcement Learning with Human in the Loop, HIL） 和人类反馈的强化学习（Reinforcement

7月前800

大模型微调实战之 Transformer 强化学习（TRL Reinforcement Learning）（三）Proximal Policy Optimization Proximal Policy Optimization 这是一个

7月前550

文献 [1] 采用deep reinforcement learning和potential game研究vehicular edge computing场景下的任务卸载和资源优化分配策略文献[2] 采用potential game设计

2025-1-31760

本篇译文为方便自己再次阅读而记录，源自Google翻译和CNKI翻译助手。习惯用语保持英文（例：agent），一些细微之处结合自己

2025-1-31990