在最近關(guān)于「Scaling Law 是否撞墻」的討論中,后訓(xùn)練(post-training)被寄予厚望。眾所周知,近期發(fā)布的 OpenAI o1在數(shù)學(xué)、 代碼、長程規(guī)劃等問題上取得了顯著提升,而背后的成功離不開后訓(xùn)練階段強(qiáng)化學(xué)習(xí)訓(xùn)練和推理階段思考計算量的增大?;诖?,有人認(rèn)為,新的擴(kuò)展律 —— 后
......
本文由站長之家合作伙伴自媒體作者“機(jī)器之心公眾號”授權(quán)發(fā)布于站長之家平臺,本平臺僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時間超過平臺更新維護(hù)時間,為了保證文章信息的及時性,內(nèi)容觀點的準(zhǔn)確性,平臺將不提供完全的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺搜索索引使用。需閱讀完整內(nèi)容的用戶,請查看原文,獲取內(nèi)容詳情。
(舉報)