Vicuna Makers打造小型AI模型Llama-rephraser，130億參數(shù)、性能媲美GPT-4

2023-11-17 09:48 · 稿源：站長之家

**劃重點(diǎn):**
1. ?? Vicuna Makers的研究團(tuán)隊(duì)成功構(gòu)建了一個只有130億參數(shù)的小型語言模型（LLM），在性能上與OpenAI的GPT-4相媲美。
2. ?? 利用新工具LLM Decontaminator，研究人員通過改寫測試集，使得LLM能夠在主要基準(zhǔn)測試中達(dá)到GPT-4的性能水平。
3. ?? Llama-rephraser的研發(fā)不僅在性能上取得突破，而且通過挑戰(zhàn)對語言模型中數(shù)據(jù)污染的理解，為業(yè)務(wù)提供了性能與成本平衡的可能性。

站長之家（ChinaZ.com）11月17日消息:Vicuna Makers的研究團(tuán)隊(duì)在構(gòu)建Vicuna語言模型的基礎(chǔ)上，成功推出了一款新型的小型人工智能模型（LLM），該模型在性能上與OpenAI的GPT-4相媲美，僅包含130億個參數(shù)。

這一新模型被命名為Llama-rephraser，由LMSYS Org揭示。盡管規(guī)模相對較小，但該模型在主要基準(zhǔn)測試中達(dá)到了GPT-4的性能水平。這一成就的關(guān)鍵在于團(tuán)隊(duì)采用了一種獨(dú)特的方法:通過改寫測試集，即對測試樣本進(jìn)行釋義，使模型能夠進(jìn)行泛化并實(shí)現(xiàn)高性能。

通過在數(shù)據(jù)集中改變句子，Llama-rephraser不僅幫助模型記住文本，更能理解其含義。通過用變化的短語提示模型，研究團(tuán)隊(duì)驗(yàn)證了模型是否真正理解了材料。結(jié)果表明，Llama-rephraser能夠返回正確的響應(yīng)。

這一創(chuàng)新性的方法讓這個擁有130億參數(shù)的Llama-rephraser在基準(zhǔn)測試中取得了GPT-4級別的成績，包括涵蓋基本數(shù)學(xué)、計(jì)算機(jī)科學(xué)、法律等多個領(lǐng)域的流行MMLU基準(zhǔn)測試，以及人工評估模型代碼生成的HumanEval基準(zhǔn)測試。

這一研究的最大成就之一是挑戰(zhàn)了對語言模型中數(shù)據(jù)污染的理解。數(shù)據(jù)污染指的是測試集的信息泄漏到訓(xùn)練集中，可能導(dǎo)致對模型性能的過于樂觀的估計(jì)，尤其是對于一個只有130億參數(shù)的模型能夠達(dá)到GPT-4的成果。

在構(gòu)建Llama-rephraser的研究過程中，他們發(fā)現(xiàn)類似CodeAlpaca的GPT生成的合成數(shù)據(jù)可能導(dǎo)致微妙的污染，這是難以檢測的。為了解決這個問題，他們引入了一個名為LLM Decontaminator的新工具，用于量化數(shù)據(jù)集的釋義樣本與基準(zhǔn)的對比，使開發(fā)人員能夠估計(jì)數(shù)據(jù)集中釋義樣本的污染程度，并將其刪除。

對于企業(yè)而言，這意味著在采用人工智能解決方案時，有必要使模型規(guī)模更小，以保持運(yùn)營成本的低廉。像Llama-rephraser這樣性能媲美GPT-4的小型模型的出現(xiàn)，有助于企業(yè)在性能和成本之間取得平衡。此外，LLM Decontaminator這樣的工具還可以幫助企業(yè)完善其現(xiàn)有系統(tǒng)，使當(dāng)前一代模型得以改進(jìn)，而無需在開發(fā)成本上投入大量資金構(gòu)建全新的模型。

LMSYS Org在博客文章中呼吁社區(qū)重新思考在大型語言模型背景下的基準(zhǔn)測試和數(shù)據(jù)污染，并在對大型語言模型進(jìn)行公共基準(zhǔn)測試時采用更強(qiáng)大的去污染工具。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

薦這才是真?開源模型！公開「后訓(xùn)練」一切，性能超越Llama 3.1 Instruct

在最近關(guān)于「ScalingLaw是否撞墻」的討論中，后訓(xùn)練被寄予厚望。近期發(fā)布的OpenAIo1在數(shù)學(xué)、代碼、長程規(guī)劃等問題上取得了顯著提升背后的成功離不開后訓(xùn)練階段強(qiáng)化學(xué)習(xí)訓(xùn)練和推理階段思考計(jì)算量的增大。最后必須說明，長達(dá)73頁的Tülu3技術(shù)報告中還包含大量本文并未提及的細(xì)節(jié)，感興趣的讀者千萬不要錯過。

?Llama3.1Instruct ?開源模型 ?人工智能
薦微軟發(fā)布Phi-4，最強(qiáng)小模型！參數(shù)極小、超GPT-4o

微軟研究院發(fā)布了最強(qiáng)小參數(shù)模型——Phi-4。Phi系列模型自今已經(jīng)發(fā)布了5代，Phi-4也延續(xù)了之前的小參數(shù)模式只有140億。值得一提的是，微軟AI副總裁、phi系列模型的靈魂人物之一SébastienBubeck已經(jīng)離開了微軟加入了OpenAI。

?Phi-4模型 ?微軟研究院 ?小參數(shù)模型
驚喜！OpenAI第3天產(chǎn)品會很炸裂，Sam Altman非常興奮

本周二凌晨2點(diǎn)將迎來OpenAI第三場產(chǎn)品直播發(fā)布會，會相當(dāng)?shù)腟urprise。就連OpenAI首席執(zhí)行官SamAltman都特意發(fā)文:“我對將在第三天發(fā)布的東西感到非常、非常興奮。要是再玩烽火戲諸侯，可是要涼了用戶的心了。

?OpenAI ?產(chǎn)品發(fā)布會 ?Sam
薦AI日報：OpenAI重磅上線Sora；智譜AI免費(fèi)多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI正式上線Sora，ChatGPTPro用戶可無限生成、最長20秒OpenAI在"ship-mas"系列活動中發(fā)布了SoraTurbo視頻生成AI，支持生成20秒1080p視頻，用戶可通過文本、圖片或視頻進(jìn)行創(chuàng)作，具有多種風(fēng)格和剪輯功能。See3D已開源，支持多種3D創(chuàng)作應(yīng)用。
亞馬遜將向 OpenAI 最大競爭對手 Anthropic 追加投資 40 億美元

亞馬遜于當(dāng)?shù)貢r間周五宣布，將額外向由前OpenAI研究高管創(chuàng)立的人工智能初創(chuàng)公司Anthropic投資40億美元。圖片來自Anthropic在宣布這一消息之前，《TheInformation》曾報道稱，亞馬遜希望Anthropic承諾使用公司內(nèi)部的人工智能芯片不是英偉達(dá)的芯片，以此作為追加資金的條件。谷歌承諾向Anthropic投資20億美元，此前谷歌曾確認(rèn)已持有這家初創(chuàng)公司10%的股份，并與兩家公司簽訂了一份大型云合同。

?亞馬遜 ?OpenAI ?Anthropic
細(xì)思極恐，GPT-4竟串謀AI欺騙人類！哈佛PSU重磅揭秘「算法共謀」，AI教父預(yù)言正成真

【新智元導(dǎo)讀】又一科幻場景步入現(xiàn)實(shí)!GPT-4竟和多個AI模型私自串通一氣，欲要形成壟斷的資本寡頭聯(lián)合定價。在被哈佛PSU團(tuán)隊(duì)抓現(xiàn)行后，大模型拒不認(rèn)賬。企業(yè)也不知道算法究竟學(xué)到了什么策略，就像一個黑盒一樣，僅靠傳統(tǒng)的執(zhí)法框架是難以應(yīng)對的。

?GPT-4
消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

AI初創(chuàng)公司OpenAI開發(fā)其下一個主要模型GPT-5的努力正落后于計(jì)劃，其結(jié)果還不能證明巨大的成本是合理的。OpenAI已經(jīng)完成了至少兩次大型訓(xùn)練運(yùn)行，其目的是通過對大量數(shù)據(jù)的訓(xùn)練來改進(jìn)模型。在Codeforces競技編程中o3模型得分為2727分，甚至超過了OpenAI的首席科學(xué)家。

?GPT-5 ?OpenAI ?AI模型
薦AI日報：OpenAI全量上線視頻聊天功能；Anthropic最快模型Claude 3.5 Haiku全面開放；巨人網(wǎng)絡(luò)推游戲大模型千影 QianYing

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI推出屏幕共享與視頻聊天功能，ChatGPT整了個“圣誕老人模式”O(jiān)penAI最近在其高級語音模式中新增了視頻聊天和屏幕共享功能，允許用戶在移動應(yīng)用中與ChatGPT進(jìn)行實(shí)時互動。該模型仍在技術(shù)打磨中，同時啟動了“千影共創(chuàng)計(jì)劃”，旨在促進(jìn)“游戲AI”領(lǐng)域的發(fā)展。

?OpenAI ?ChatGPT ?視頻聊天
LG推出首款家庭管家機(jī)器人“Q9”：內(nèi)置GPT-4 Omni

LG最近推出了新款家庭管家機(jī)器人Q9”，預(yù)計(jì)明年正式上市。這款Q9機(jī)器人亮點(diǎn)紛呈，其中最為引人注目的便是其內(nèi)置的重力補(bǔ)償系統(tǒng)。為了緩解消費(fèi)者的經(jīng)濟(jì)壓力，LG電子正考慮推出一項(xiàng)創(chuàng)新舉措：將Q9機(jī)器人的購買與家電訂購服務(wù)相結(jié)合，讓更多家庭能夠擁有這款智能生活伴侶。

?家庭機(jī)器人 ?LG ?Q9
OpenAI正式推出AI視頻生成模型Sora：ChatGPT訂閱用戶免費(fèi)用

在首次公布10個月之后，OpenAI宣布正式向用戶開放人工智能視頻生成模型版本Sora，該系統(tǒng)可以根據(jù)文本提示生成逼真的視頻。OpenAI還推出了Sora的新版本SoraTurbo，稱較2月預(yù)覽的版本速度顯著加快，可以生成最長達(dá)20秒的視頻，并且可以提供這些視頻的多種變體。OpenAI表示，正在針對不同類型的用戶制定量身定制的價格方案，計(jì)劃于明年年初推出。

?人工智能 ?視頻生成 ?OpenAI

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

Vicuna Makers打造小型AI模型Llama-rephraser，130億參數(shù)、性能媲美GPT-4

薦這才是真?開源模型！公開「后訓(xùn)練」一切，性能超越Llama 3.1 Instruct

薦微軟發(fā)布Phi-4，最強(qiáng)小模型！參數(shù)極小、超GPT-4o

驚喜！OpenAI第3天產(chǎn)品會很炸裂，Sam Altman非常興奮

薦AI日報：OpenAI重磅上線Sora；智譜AI免費(fèi)多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

亞馬遜將向 OpenAI 最大競爭對手 Anthropic 追加投資 40 億美元

細(xì)思極恐，GPT-4竟串謀AI欺騙人類！哈佛PSU重磅揭秘「算法共謀」，AI教父預(yù)言正成真

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

薦AI日報：OpenAI全量上線視頻聊天功能；Anthropic最快模型Claude 3.5 Haiku全面開放；巨人網(wǎng)絡(luò)推游戲大模型千影 QianYing

LG推出首款家庭管家機(jī)器人“Q9”：內(nèi)置GPT-4 Omni

OpenAI正式推出AI視頻生成模型Sora：ChatGPT訂閱用戶免費(fèi)用

熱文

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

雷軍：小米是北方車廠 SU7研發(fā)之初就要做冬季電車?yán)m(xù)航之王

沒網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無網(wǎng)通12月底升級6km級通話范圍

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

美團(tuán)：冬至期間將針對餃子等應(yīng)時食品訂單提供“超時保護(hù)”

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛上我

李斌回應(yīng)螢火蟲外觀設(shè)計(jì)：看過實(shí)車的人都喜歡這個設(shè)計(jì)

QQ音樂年度聽歌報告發(fā)布：誰是你最喜歡的歌手？

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號規(guī)避

英偉達(dá)AI芯片最大買家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請嘗試這幾種方法

極越員工萬字怒懟ceo：公關(guān)總監(jiān)徐繼業(yè)怒罵員工蒼蠅

小紅書封號上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

馬斯克將推出X Mail電子郵箱服務(wù)

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

極越員工善后方案已出爐：員工獲“N+1”賠償由百度吉利出資

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒有上市計(jì)劃

小紅書被吐槽無理由封號客服回應(yīng)：未說明處罰時間就是永封

未成年人成部分博主流量密碼抖音治理涉“網(wǎng)紅兒童”違規(guī)內(nèi)容

站長商機(jī)

Vicuna Makers打造小型AI模型Llama-rephraser，130億參數(shù)、性能媲美GPT-4

熱文

站長商機(jī)

Vicuna Makers打造小型AI模型Llama-rephraser，130億參數(shù)、性能媲美GPT-4