幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > 訓(xùn)練框架最新資訊  > 正文

北大&智源提出訓(xùn)練框架LLaMA-Rider 讓大模型自主探索開(kāi)放世界

2023-11-07 11:44 · 稿源:站長(zhǎng)之家

要點(diǎn):

1. LLaMA-Rider是一個(gè)訓(xùn)練框架,賦予大型語(yǔ)言模型在開(kāi)放世界中自主探索、學(xué)習(xí)任務(wù)的能力,提高其適應(yīng)開(kāi)放環(huán)境的通用智能。

2. LLaMA-Rider采用反饋-修改機(jī)制進(jìn)行主動(dòng)探索,在探索階段將成功經(jīng)驗(yàn)整合為監(jiān)督數(shù)據(jù)集,然后用于微調(diào)模型,提高多任務(wù)解決的能力。

3. LLaMA-Rider的實(shí)驗(yàn)表現(xiàn)優(yōu)于其他方法,具有高采樣效率和低訓(xùn)練代價(jià),展現(xiàn)了對(duì)開(kāi)放世界的持續(xù)學(xué)習(xí)和多任務(wù)解決能力。

站長(zhǎng)之家(ChinaZ.com)11月7日 消息:北京大學(xué)和北京智源人工智能研究院的團(tuán)隊(duì)提出了名為L(zhǎng)LaMA-Rider的訓(xùn)練框架,旨在讓大型語(yǔ)言模型在開(kāi)放世界中具備自主探索和學(xué)習(xí)任務(wù)的能力。這個(gè)框架通過(guò)反饋-修改機(jī)制來(lái)實(shí)現(xiàn)主動(dòng)探索,使模型在環(huán)境中接收反饋信息,不斷調(diào)整決策,從而逐漸適應(yīng)開(kāi)放環(huán)境。

image.png

項(xiàng)目地址:https://github.com/PKU-RL/LLaMA-Rider

LLaMA-Rider采用兩階段訓(xùn)練方法,首先讓模型在環(huán)境中自主探索,然后將成功經(jīng)驗(yàn)整合為監(jiān)督數(shù)據(jù)集,用于模型微調(diào),提高多任務(wù)解決的能力。在實(shí)驗(yàn)中,LLaMA-Rider的表現(xiàn)優(yōu)于傳統(tǒng)任務(wù)規(guī)劃器,具有高采樣效率和低訓(xùn)練代價(jià),尤其在處理大動(dòng)作空間和復(fù)雜場(chǎng)景時(shí)表現(xiàn)出色。

LLaMA-Rider還展現(xiàn)了對(duì)新任務(wù)的泛化能力,表明模型學(xué)到了決策的泛化性。作者還驗(yàn)證了子任務(wù)重標(biāo)記的重要作用,以及模型在任務(wù)相關(guān)問(wèn)題中的準(zhǔn)確回答,證明了模型在訓(xùn)練過(guò)程中學(xué)到了與環(huán)境知識(shí)的對(duì)齊。

實(shí)驗(yàn)結(jié)果顯示,LLaMA-Rider在多任務(wù)解決上表現(xiàn)出高采樣效率和低訓(xùn)練代價(jià),與強(qiáng)化學(xué)習(xí)方法相比具有優(yōu)勢(shì)。這個(gè)研究為大型語(yǔ)言模型在開(kāi)放世界中的自主學(xué)習(xí)提供了重要思路,具有廣闊的應(yīng)用前景。

舉報(bào)

  • 相關(guān)推薦

熱文

  • 3 天
  • 7天