TRL

大模型微调实战之 Transformer 强化学习（TRL Reinforcement Learning）（三）Proximal Policy Optimization

大模型微调实战之 Transformer 强化学习（TRL Reinforcement Learning）（三）Proximal Policy Optimization Proximal Policy Optimization 这是一个

7月前580