**劃重點:**
1. ?? *Orca2模型在零樣本測試中,涵蓋語言理解和常識推理等15個多樣化基準測試中,與五到十倍更大的模型相匹敵或勝過。
2. ?? 微軟開源了兩個規(guī)模為7億和13億參數(shù)的Orca2模型,旨在促進對更小型模型的研究,這有助于有限資源的企業(yè)更經(jīng)濟地解決特定應用場景。
3. ?? 與傳統(tǒng)的模仿學習不同,微軟研究人員通過精心設計的合成數(shù)據(jù)集,教授Orca2模型使用不同的解決方案策略,為不同任務提供最有效的解決方案策略。
站長之家(ChinaZ.com)11月21日 消息:在OpenAI發(fā)生權(quán)力斗爭和大規(guī)模辭職的時刻,微軟作為AI巨頭的長期支持者,依然在其人工智能努力上不懈努力。微軟公司的研究部門今日發(fā)布了Orca2,這是一對小型語言模型,經(jīng)測試在復雜推理任務的零樣本設置中,與Meta的Llama-2Chat-70B等五到十倍大的語言模型相匹敵或更勝一籌。
這兩個模型分別具有7億和13億個參數(shù),是在幾個月前展示了強大推理能力的原始13B Orca模型的基礎上進行的改進。微軟研究人員在一篇聯(lián)合博客中寫道:“通過Orca2,我們繼續(xù)展示改進的訓練信號和方法可以使較小的語言模型獲得增強的推理能力,這通常只在更大型的語言模型中找到?!?/p>
公司已經(jīng)將這兩個新模型開源,以促進對能夠與更大模型一樣出色執(zhí)行的較小模型的開發(fā)和評估的進一步研究。這項工作為那些資源有限的企業(yè)提供了更好的選擇,以解決目標用例而無需過多投資于計算能力。
針對小型模型缺乏推理能力的問題,微軟研究決定通過在高度定制的合成數(shù)據(jù)集上對Llama2基礎模型進行微調(diào)來解決這一差距。與常用的模仿學習技術不同,研究人員訓練模型在不同任務中采用不同的解決方案策略。他們的理念是,較大模型的策略并不總是完美適用于較小模型。例如,GPT-4可能能夠直接回答復雜問題,但沒有這種能力的較小模型可能通過將相同任務分解為幾個步驟而受益。
研究人員在今天發(fā)表的一篇論文中寫道:“在Orca2中,我們教授模型各種推理技巧(逐步,回憶然后生成,回憶-推理-生成,直接回答等)。更關鍵的是,我們旨在幫助模型學會為每個任務確定最有效的解決方案策略?!表椖康挠柧殧?shù)據(jù)是從更強大的教師模型中獲得的,以這樣一種方式獲取數(shù)據(jù),以教授學生模型處理如何使用推理策略以及何時對手頭的特定任務使用它。
在15個多樣化的基準測試中,涵蓋語言理解、常識推理、多步推理、數(shù)學問題解決、閱讀理解、摘要和真實性等方面,Orca2模型在零樣本設置中表現(xiàn)出色,大多數(shù)情況下匹配或超過了五到十倍規(guī)模更大的模型。
所有基準測試結(jié)果的平均值顯示,Orca2的7B和13B版本勝過了Llama-2-Chat-13B和70B以及WizardLM-13B和70B。唯獨在GSM8K基準測試中,包含8.5K高質(zhì)量小學數(shù)學問題,WizardLM-70B的表現(xiàn)確實比Orca模型和Llama模型更為出色。
盡管這些性能對于希望在經(jīng)濟應用中獲得小型高性能模型的企業(yè)團隊來說是個好消息,但值得注意的是,這些模型也可能繼承其他語言模型以及它們微調(diào)的基本模型的常見限制。
微軟補充說,用于創(chuàng)建Orca模型的技術甚至可以應用于其他基礎模型。研究團隊寫道:“盡管它有一些局限性...,但是Orca2在未來推理、專業(yè)化、控制和較小模型的安全性方面的潛力是顯而易見的。對精心篩選的合成數(shù)據(jù)進行后訓練在這些改進中是一個關鍵策略。隨著更大的模型不斷取得進展,我們與Orca2的合作在多樣化語言模型的應用和部署選項方面邁出了重要一步。”
隨著Orca2模型的開源發(fā)布和該領域正在進行的研究,可以安全地說未來可能會涌現(xiàn)更多高性能的小型語言模型。
六個月前在巴黎創(chuàng)立并以其獨特的Word Art標志和創(chuàng)紀錄的1.18億美元種子輪融資引起轟動的Mistral AI公司,也提供了一個7億參數(shù)的模型,優(yōu)于Meta的Llama213B(Meta較新模型中的較小型號之一)。
微軟博客介紹:https://www.microsoft.com/en-us/research/blog/orca-2-teaching-small-language-models-how-to-reason/
(舉報)