【新智元導(dǎo)讀】ChatGPT橫空出世后,RLHF成為研究人員關(guān)注的焦點。谷歌最新研究提出,不用人類標(biāo)注,AI標(biāo)注偏好后,也能取得與RLHF一樣的效果。如果說,RLHF中的「人類」被取代,可行嗎?谷歌團(tuán)隊的最新研究提出了,用大模型替代人類,進(jìn)行偏好標(biāo)注,也就是AI反饋強化學(xué)習(xí)(RLAIF)
......
本文由站長之家合作伙伴自媒體作者“新智元公眾號”授權(quán)發(fā)布于站長之家平臺,本平臺僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時間超過平臺更新維護(hù)時間,為了保證文章信息的及時性,內(nèi)容觀點的準(zhǔn)確性,平臺將不提供完全的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺搜索索引使用。需閱讀完整內(nèi)容的用戶,請查看原文,獲取內(nèi)容詳情。
(舉報)