北大&智源提出訓(xùn)練框架LLaMA-Rider 讓大模型自主探索開(kāi)放世界

2023-11-07 11:44 · 稿源：站長(zhǎng)之家

要點(diǎn):
1. LLaMA-Rider是一個(gè)訓(xùn)練框架，賦予大型語(yǔ)言模型在開(kāi)放世界中自主探索、學(xué)習(xí)任務(wù)的能力，提高其適應(yīng)開(kāi)放環(huán)境的通用智能。
2. LLaMA-Rider采用反饋-修改機(jī)制進(jìn)行主動(dòng)探索，在探索階段將成功經(jīng)驗(yàn)整合為監(jiān)督數(shù)據(jù)集，然后用于微調(diào)模型，提高多任務(wù)解決的能力。
3. LLaMA-Rider的實(shí)驗(yàn)表現(xiàn)優(yōu)于其他方法，具有高采樣效率和低訓(xùn)練代價(jià)，展現(xiàn)了對(duì)開(kāi)放世界的持續(xù)學(xué)習(xí)和多任務(wù)解決能力。

站長(zhǎng)之家（ChinaZ.com）11月7日消息:北京大學(xué)和北京智源人工智能研究院的團(tuán)隊(duì)提出了名為L(zhǎng)LaMA-Rider的訓(xùn)練框架，旨在讓大型語(yǔ)言模型在開(kāi)放世界中具備自主探索和學(xué)習(xí)任務(wù)的能力。這個(gè)框架通過(guò)反饋-修改機(jī)制來(lái)實(shí)現(xiàn)主動(dòng)探索，使模型在環(huán)境中接收反饋信息，不斷調(diào)整決策，從而逐漸適應(yīng)開(kāi)放環(huán)境。

項(xiàng)目地址:https://github.com/PKU-RL/LLaMA-Rider

LLaMA-Rider采用兩階段訓(xùn)練方法，首先讓模型在環(huán)境中自主探索，然后將成功經(jīng)驗(yàn)整合為監(jiān)督數(shù)據(jù)集，用于模型微調(diào)，提高多任務(wù)解決的能力。在實(shí)驗(yàn)中，LLaMA-Rider的表現(xiàn)優(yōu)于傳統(tǒng)任務(wù)規(guī)劃器，具有高采樣效率和低訓(xùn)練代價(jià)，尤其在處理大動(dòng)作空間和復(fù)雜場(chǎng)景時(shí)表現(xiàn)出色。

LLaMA-Rider還展現(xiàn)了對(duì)新任務(wù)的泛化能力，表明模型學(xué)到了決策的泛化性。作者還驗(yàn)證了子任務(wù)重標(biāo)記的重要作用，以及模型在任務(wù)相關(guān)問(wèn)題中的準(zhǔn)確回答，證明了模型在訓(xùn)練過(guò)程中學(xué)到了與環(huán)境知識(shí)的對(duì)齊。

實(shí)驗(yàn)結(jié)果顯示，LLaMA-Rider在多任務(wù)解決上表現(xiàn)出高采樣效率和低訓(xùn)練代價(jià)，與強(qiáng)化學(xué)習(xí)方法相比具有優(yōu)勢(shì)。這個(gè)研究為大型語(yǔ)言模型在開(kāi)放世界中的自主學(xué)習(xí)提供了重要思路，具有廣闊的應(yīng)用前景。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

訓(xùn)練框架

薦這才是真?開(kāi)源模型！公開(kāi)「后訓(xùn)練」一切，性能超越Llama 3.1 Instruct

在最近關(guān)于「ScalingLaw是否撞墻」的討論中，后訓(xùn)練被寄予厚望。近期發(fā)布的OpenAIo1在數(shù)學(xué)、代碼、長(zhǎng)程規(guī)劃等問(wèn)題上取得了顯著提升背后的成功離不開(kāi)后訓(xùn)練階段強(qiáng)化學(xué)習(xí)訓(xùn)練和推理階段思考計(jì)算量的增大。最后必須說(shuō)明，長(zhǎng)達(dá)73頁(yè)的Tülu3技術(shù)報(bào)告中還包含大量本文并未提及的細(xì)節(jié)，感興趣的讀者千萬(wàn)不要錯(cuò)過(guò)。

?Llama3.1Instruct ?開(kāi)源模型 ?人工智能
薦AI日?qǐng)?bào)：階躍星辰內(nèi)測(cè)視頻大模型Step-Video；即夢(mèng)AI圖片2.1模型支持生成文字；騰訊發(fā)布混元視頻生成大模型

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、階躍星辰視頻生成大模型Step-Video開(kāi)啟內(nèi)測(cè)可在躍問(wèn)視頻申請(qǐng)階躍星辰的Step-Video模型正式開(kāi)啟內(nèi)測(cè)，用戶(hù)可以通過(guò)躍問(wèn)視頻官網(wǎng)申請(qǐng)資格。用戶(hù)可在最新版本的WPSOffice中輕松找到?

?人工智能 ?視頻生成 ?技術(shù)趨勢(shì)
薦大模型拿單江湖

11月29日，智譜AgentOpenDay會(huì)后，現(xiàn)場(chǎng)有記者問(wèn)了CEO張鵬一個(gè)問(wèn)題:“ToB進(jìn)展如何?”“還行吧”，至此張鵬沒(méi)有再多說(shuō)一句。這家明星AI公司深度參與到大模型的廝殺當(dāng)中，其同臺(tái)競(jìng)爭(zhēng)對(duì)手是百度、阿里、騰訊和字節(jié)。留在AI公司手中的牌就要見(jiàn)底了。

?智譜Agent ?大模型 ?AI公司
薦AI日?qǐng)?bào)：OpenAI全量上線(xiàn)視頻聊天功能；Anthropic最快模型Claude 3.5 Haiku全面開(kāi)放；巨人網(wǎng)絡(luò)推游戲大模型千影 QianYing

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI推出屏幕共享與視頻聊天功能，ChatGPT整了個(gè)“圣誕老人模式”O(jiān)penAI最近在其高級(jí)語(yǔ)音模式中新增了視頻聊天和屏幕共享功能，允許用戶(hù)在移動(dòng)應(yīng)用中與ChatGPT進(jìn)行實(shí)時(shí)互動(dòng)。該模型仍在技術(shù)打磨中，同時(shí)啟動(dòng)了“千影共創(chuàng)計(jì)劃”，旨在促進(jìn)“游戲AI”領(lǐng)域的發(fā)展。

?OpenAI ?ChatGPT ?視頻聊天
薦AI大模型時(shí)代，人才的需求已經(jīng)變了

什么是AI發(fā)展的第一驅(qū)動(dòng)力?最近，全球科技大廠(chǎng)都在用行動(dòng)告訴我們:人才。谷歌NotebookLM的核心團(tuán)隊(duì)共同宣布離職創(chuàng)業(yè)，他們新公司的網(wǎng)站已經(jīng)進(jìn)入了「建設(shè)中」的狀態(tài)。但要真正解決AI人才短缺的問(wèn)題需要更多企業(yè)、高校和社會(huì)各界的共同努力。

?大模型
脈脈2024MAX年度職得去公司首推大模型榜單商湯、智譜、趣丸上榜

職場(chǎng)社交和社區(qū)平臺(tái)脈脈公布了2024MAX年度職得去公司評(píng)選獲獎(jiǎng)名單。字節(jié)跳動(dòng)、騰訊、京東、星巴克中國(guó)等企業(yè)榮獲年度職得去雇主。求職者也可以發(fā)現(xiàn)更多值得去的好公司，把握職場(chǎng)發(fā)展新機(jī)遇。

?脈脈 ?職場(chǎng)社交 ?年度職得去雇主
百度Apollo開(kāi)放平臺(tái)10.0發(fā)布：框架、算法全面升級(jí) 單Orin芯片撐起L4自動(dòng)駕駛

百度于今日上午，正式發(fā)布了Apollo開(kāi)放平臺(tái)10.0，其基于自動(dòng)駕駛大模型ADFM重構(gòu)算法，框架、模塊、系統(tǒng)全面升級(jí)，技術(shù)應(yīng)用更高性能、更低成本、更安全。該平臺(tái)還通過(guò)自動(dòng)駕駛大模型ADFM重構(gòu)算法，提升了核心算法模塊效果。對(duì)于車(chē)企言，Apollo開(kāi)放平臺(tái)10.0性能大幅提升同時(shí)，軟硬件成本大幅下探，也為L(zhǎng)4級(jí)自動(dòng)駕駛的推廣提供了更堅(jiān)實(shí)的基礎(chǔ)。

?自動(dòng)駕駛 ?Apollo開(kāi)放平臺(tái) ?ADFM重構(gòu)算法
視頻生成大模型賽道，只是看上去擁擠

2024年最后一個(gè)月，國(guó)產(chǎn)大模型落地應(yīng)用突然加速。尤其視頻生成模型，就像密集射出子彈后的槍管，熱得發(fā)燙。AI一天，人間一年。

?國(guó)產(chǎn)大模型 ?視頻生成模型 ?AI導(dǎo)演
薦2024，大模型殺進(jìn)“決賽圈”

HenryChesbrough在著作《通過(guò)技術(shù)創(chuàng)新盈利勢(shì)在必行》中，曾提出過(guò)一個(gè)創(chuàng)新的“漏斗模型”。開(kāi)放式創(chuàng)新一開(kāi)始鼓勵(lì)百花齊放，但最終只有10%的技術(shù)能夠通過(guò)這個(gè)漏斗，成功抵達(dá)目標(biāo)市場(chǎng)targetmarket，進(jìn)入到商業(yè)化與產(chǎn)業(yè)化的下一個(gè)階段其余的90%的技術(shù)，逐漸淡出人們的視野?！叭巳私钥葾I”的2025離我們?cè)絹?lái)越近了。

?開(kāi)放式創(chuàng)新 ?技術(shù)創(chuàng)新 ?大模型
薦當(dāng)做應(yīng)用成為共識(shí)，大模型公司拿出了更多彈藥

過(guò)去的一周，就像是對(duì)明年AI應(yīng)用領(lǐng)域的激烈競(jìng)爭(zhēng)進(jìn)行了一波預(yù)演。OpenAI連續(xù)12個(gè)工作日的直播繼續(xù)進(jìn)行，完全版的o1，跳票很久的Sora和GPT-4o的高級(jí)語(yǔ)音模式，最新的ChatGPTProjects功能紛紛上線(xiàn)，其中還夾雜著一些關(guān)于AGI的符號(hào)性植入，仿佛在暗示這場(chǎng)馬拉松式新品發(fā)布的壓軸大戲會(huì)與AGI密切相關(guān)。才能維持住大家對(duì)大模型的信心，讓大模型發(fā)揮應(yīng)有的價(jià)值，抵消一部分質(zhì)疑的聲音。

?大模型

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

北大&智源提出訓(xùn)練框架LLaMA-Rider 讓大模型自主探索開(kāi)放世界

薦這才是真?開(kāi)源模型！公開(kāi)「后訓(xùn)練」一切，性能超越Llama 3.1 Instruct

薦AI日?qǐng)?bào)：階躍星辰內(nèi)測(cè)視頻大模型Step-Video；即夢(mèng)AI圖片2.1模型支持生成文字；騰訊發(fā)布混元視頻生成大模型

薦大模型拿單江湖

薦AI日?qǐng)?bào)：OpenAI全量上線(xiàn)視頻聊天功能；Anthropic最快模型Claude 3.5 Haiku全面開(kāi)放；巨人網(wǎng)絡(luò)推游戲大模型千影 QianYing

薦AI大模型時(shí)代，人才的需求已經(jīng)變了

脈脈2024MAX年度職得去公司首推大模型榜單商湯、智譜、趣丸上榜

百度Apollo開(kāi)放平臺(tái)10.0發(fā)布：框架、算法全面升級(jí) 單Orin芯片撐起L4自動(dòng)駕駛

視頻生成大模型賽道，只是看上去擁擠

薦2024，大模型殺進(jìn)“決賽圈”

薦當(dāng)做應(yīng)用成為共識(shí)，大模型公司拿出了更多彈藥

熱文

周鴻祎：AGI發(fā)展遇瓶頸智能體和專(zhuān)業(yè)大模型將扛大旗

雷軍：小米是北方車(chē)廠(chǎng) SU7研發(fā)之初就要做冬季電車(chē)?yán)m(xù)航之王

沒(méi)網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無(wú)網(wǎng)通12月底升級(jí)6km級(jí)通話(huà)范圍

消息稱(chēng)OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

李斌回應(yīng)螢火蟲(chóng)外觀(guān)設(shè)計(jì)：看過(guò)實(shí)車(chē)的人都喜歡這個(gè)設(shè)計(jì)

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛(ài)上我

美團(tuán)：冬至期間將針對(duì)餃子等應(yīng)時(shí)食品訂單提供“超時(shí)保護(hù)”

央視曝光未成年人繞開(kāi)防沉迷只需4元：通過(guò)租用游戲賬號(hào)規(guī)避

QQ音樂(lè)年度聽(tīng)歌報(bào)告發(fā)布：誰(shuí)是你最喜歡的歌手？

FF再獲3000萬(wàn)美元新一輪融資加速第二品牌FX戰(zhàn)略推進(jìn)

英偉達(dá)AI芯片最大買(mǎi)家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請(qǐng)嘗試這幾種方法

極越員工萬(wàn)字怒懟ceo：公關(guān)總監(jiān)徐繼業(yè)怒罵員工蒼蠅

小紅書(shū)封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

馬斯克將推出X Mail電子郵箱服務(wù)

周鴻祎：AGI發(fā)展遇瓶頸智能體和專(zhuān)業(yè)大模型將扛大旗

極越員工善后方案已出爐：?jiǎn)T工獲“N+1”賠償由百度吉利出資

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒(méi)有上市計(jì)劃

小紅書(shū)被吐槽無(wú)理由封號(hào) 客服回應(yīng)：未說(shuō)明處罰時(shí)間就是永封

未成年人成部分博主流量密碼抖音治理涉“網(wǎng)紅兒童”違規(guī)內(nèi)容

站長(zhǎng)商機(jī)