**劃重點(diǎn):**
1. ?? Vicuna Makers的研究團(tuán)隊(duì)成功構(gòu)建了一個只有130億參數(shù)的小型語言模型(LLM),在性能上與OpenAI的GPT-4相媲美。
2. ?? 利用新工具LLM Decontaminator,研究人員通過改寫測試集,使得LLM能夠在主要基準(zhǔn)測試中達(dá)到GPT-4的性能水平。
3. ?? Llama-rephraser的研發(fā)不僅在性能上取得突破,而且通過挑戰(zhàn)對語言模型中數(shù)據(jù)污染的理解,為業(yè)務(wù)提供了性能與成本平衡的可能性。
站長之家(ChinaZ.com)11月17日 消息:Vicuna Makers的研究團(tuán)隊(duì)在構(gòu)建Vicuna語言模型的基礎(chǔ)上,成功推出了一款新型的小型人工智能模型(LLM),該模型在性能上與OpenAI的GPT-4相媲美,僅包含130億個參數(shù)。
這一新模型被命名為Llama-rephraser,由LMSYS Org揭示。盡管規(guī)模相對較小,但該模型在主要基準(zhǔn)測試中達(dá)到了GPT-4的性能水平。這一成就的關(guān)鍵在于團(tuán)隊(duì)采用了一種獨(dú)特的方法:通過改寫測試集,即對測試樣本進(jìn)行釋義,使模型能夠進(jìn)行泛化并實(shí)現(xiàn)高性能。
通過在數(shù)據(jù)集中改變句子,Llama-rephraser不僅幫助模型記住文本,更能理解其含義。通過用變化的短語提示模型,研究團(tuán)隊(duì)驗(yàn)證了模型是否真正理解了材料。結(jié)果表明,Llama-rephraser能夠返回正確的響應(yīng)。
這一創(chuàng)新性的方法讓這個擁有130億參數(shù)的Llama-rephraser在基準(zhǔn)測試中取得了GPT-4級別的成績,包括涵蓋基本數(shù)學(xué)、計(jì)算機(jī)科學(xué)、法律等多個領(lǐng)域的流行MMLU基準(zhǔn)測試,以及人工評估模型代碼生成的HumanEval基準(zhǔn)測試。
這一研究的最大成就之一是挑戰(zhàn)了對語言模型中數(shù)據(jù)污染的理解。數(shù)據(jù)污染指的是測試集的信息泄漏到訓(xùn)練集中,可能導(dǎo)致對模型性能的過于樂觀的估計(jì),尤其是對于一個只有130億參數(shù)的模型能夠達(dá)到GPT-4的成果。
在構(gòu)建Llama-rephraser的研究過程中,他們發(fā)現(xiàn)類似CodeAlpaca的GPT生成的合成數(shù)據(jù)可能導(dǎo)致微妙的污染,這是難以檢測的。為了解決這個問題,他們引入了一個名為LLM Decontaminator的新工具,用于量化數(shù)據(jù)集的釋義樣本與基準(zhǔn)的對比,使開發(fā)人員能夠估計(jì)數(shù)據(jù)集中釋義樣本的污染程度,并將其刪除。
對于企業(yè)而言,這意味著在采用人工智能解決方案時,有必要使模型規(guī)模更小,以保持運(yùn)營成本的低廉。像Llama-rephraser這樣性能媲美GPT-4的小型模型的出現(xiàn),有助于企業(yè)在性能和成本之間取得平衡。此外,LLM Decontaminator這樣的工具還可以幫助企業(yè)完善其現(xiàn)有系統(tǒng),使當(dāng)前一代模型得以改進(jìn),而無需在開發(fā)成本上投入大量資金構(gòu)建全新的模型。
LMSYS Org在博客文章中呼吁社區(qū)重新思考在大型語言模型背景下的基準(zhǔn)測試和數(shù)據(jù)污染,并在對大型語言模型進(jìn)行公共基準(zhǔn)測試時采用更強(qiáng)大的去污染工具。
(舉報)