贵圈
政府都对党
- 注册
- 2014-10-21
- 消息
- 32,836
- 荣誉分数
- 6,165
- 声望点数
- 373
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。
论文地址:[2309.00267] RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
结果发现,RLAIF可以在不依赖人类标注员的情况下,产生与RLHF相当的改进效果,胜率50%。
论文地址:[2309.00267] RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
结果发现,RLAIF可以在不依赖人类标注员的情况下,产生与RLHF相当的改进效果,胜率50%。