总得有个人把个关吧。ai自我揪偏?

贵圈

政府都对党
注册
2014-10-21
消息
32,836
荣誉分数
6,165
声望点数
373
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。

v2_0bdadd241368404e8db0a524008fa083@5091053_oswg39314oswg1080oswg273_img_000


论文地址:[2309.00267] RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

结果发现,RLAIF可以在不依赖人类标注员的情况下,产生与RLHF相当的改进效果,胜率50%。
 
看过一个缎子,说我原以为人工智能帮我做饭刷碗,我去诗词歌赋,可现在我还是做饭刷碗,人工智能去诗词歌赋了。
 
后退
顶部