要點(diǎn):
1. LLaMA-Rider是一個(gè)訓(xùn)練框架,賦予大型語(yǔ)言模型在開(kāi)放世界中自主探索、學(xué)習(xí)任務(wù)的能力,提高其適應(yīng)開(kāi)放環(huán)境的通用智能。
2. LLaMA-Rider采用反饋-修改機(jī)制進(jìn)行主動(dòng)探索,在探索階段將成功經(jīng)驗(yàn)整合為監(jiān)督數(shù)據(jù)集,然后用于微調(diào)模型,提高多任務(wù)解決的能力。
3. LLaMA-Rider的實(shí)驗(yàn)表現(xiàn)優(yōu)于其他方法,具有高采樣效率和低訓(xùn)練代價(jià),展現(xiàn)了對(duì)開(kāi)放世界的持續(xù)學(xué)習(xí)和多任務(wù)解決能力。
站長(zhǎng)之家(ChinaZ.com)11月7日 消息:北京大學(xué)和北京智源人工智能研究院的團(tuán)隊(duì)提出了名為L(zhǎng)LaMA-Rider的訓(xùn)練框架,旨在讓大型語(yǔ)言模型在開(kāi)放世界中具備自主探索和學(xué)習(xí)任務(wù)的能力。這個(gè)框架通過(guò)反饋-修改機(jī)制來(lái)實(shí)現(xiàn)主動(dòng)探索,使模型在環(huán)境中接收反饋信息,不斷調(diào)整決策,從而逐漸適應(yīng)開(kāi)放環(huán)境。
項(xiàng)目地址:https://github.com/PKU-RL/LLaMA-Rider
LLaMA-Rider采用兩階段訓(xùn)練方法,首先讓模型在環(huán)境中自主探索,然后將成功經(jīng)驗(yàn)整合為監(jiān)督數(shù)據(jù)集,用于模型微調(diào),提高多任務(wù)解決的能力。在實(shí)驗(yàn)中,LLaMA-Rider的表現(xiàn)優(yōu)于傳統(tǒng)任務(wù)規(guī)劃器,具有高采樣效率和低訓(xùn)練代價(jià),尤其在處理大動(dòng)作空間和復(fù)雜場(chǎng)景時(shí)表現(xiàn)出色。
LLaMA-Rider還展現(xiàn)了對(duì)新任務(wù)的泛化能力,表明模型學(xué)到了決策的泛化性。作者還驗(yàn)證了子任務(wù)重標(biāo)記的重要作用,以及模型在任務(wù)相關(guān)問(wèn)題中的準(zhǔn)確回答,證明了模型在訓(xùn)練過(guò)程中學(xué)到了與環(huán)境知識(shí)的對(duì)齊。
實(shí)驗(yàn)結(jié)果顯示,LLaMA-Rider在多任務(wù)解決上表現(xiàn)出高采樣效率和低訓(xùn)練代價(jià),與強(qiáng)化學(xué)習(xí)方法相比具有優(yōu)勢(shì)。這個(gè)研究為大型語(yǔ)言模型在開(kāi)放世界中的自主學(xué)習(xí)提供了重要思路,具有廣闊的應(yīng)用前景。
(舉報(bào))