聲明:本文來自于微信公眾號(hào)硅星人Pro,作者:王兆洋,授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。
“MoE”加上“前所未有大規(guī)模投入生產(chǎn)環(huán)境的 Lightning Attention”,再加上“從框架到CUDA層面的如軟件和工程重構(gòu)”,會(huì)得到什么?
答案是,一個(gè)追平了頂級(jí)模型能力、且把上下文長(zhǎng)度提升到 400 萬token級(jí)別的新模型。
1 月 15 日,大模型公司MiniMax正式發(fā)布了這款預(yù)告已久的新模型系列:MiniMax-01。它包括基礎(chǔ)語言大模型MiniMax-Text-01 和在其上集成了一個(gè)輕量級(jí)ViT模型而開發(fā)的視覺多模態(tài)大模型 MiniMax-VL-01。
MiniMax- 01 是一個(gè)總參數(shù) 4560 億,由 32 個(gè)Experts組成的MoE(混合專家)模型,在多個(gè)主流評(píng)測(cè)集上,它的綜合能力與GPT-4o和Claude 3.5 sonnet齊平,而同時(shí),它的上下文長(zhǎng)度是今天頂尖模型們的20- 32 倍,并且隨著輸入長(zhǎng)度變長(zhǎng),它也是性能衰減最慢的那個(gè)模型。
也就是,這可是實(shí)打?qū)嵉?400 萬token上下文。
這對(duì)今天所有大模型來說都是個(gè)新突破。而MiniMax實(shí)現(xiàn)它的方式也很激進(jìn)——
如此大參數(shù)的模型并不少見,但它是第一個(gè)依賴線性注意力機(jī)制的大規(guī)模部署的模型。在注意力機(jī)制層面,MiniMax- 01 做了大膽的創(chuàng)新,在業(yè)內(nèi)首次實(shí)現(xiàn)了新的線性注意力機(jī)制,它的 80 層注意力層里,每一層softmax attention層前放置了 7 層線性注意力lightning attention層。
Softmax attention是Transformer的核心注意力機(jī)制,它是Transformer成為今天大模型熱潮里的基石的關(guān)鍵,但同時(shí)它也有著先天的問題——它會(huì)讓模型在處理長(zhǎng)文本時(shí)復(fù)雜度成n的平方的增加。線性注意力則可以把復(fù)雜度控制在線性增加。線性注意力機(jī)制相關(guān)的研究一直在冒出來,但它們往往是一種“實(shí)驗(yàn)”的狀態(tài),MiniMax- 01 第一次把它放到了生產(chǎn)環(huán)境里。
它的目的就是要在成本得以控制的同時(shí),給MoE模型帶來更長(zhǎng)的上下文能力。
“我們希望這個(gè)模型能為接下來的AI Agent爆發(fā)做出貢獻(xiàn)?!盡iniMax- 01 也是MiniMax第一個(gè)開源的模型,它的權(quán)重等全部對(duì)社區(qū)公開。
MiniMax是國(guó)內(nèi)最早做預(yù)訓(xùn)練模型的商業(yè)公司之一,在模型的技術(shù)路線上它一直按著自己的想法走。而這些路線多次被證明成為了業(yè)內(nèi)后來的主流方向。MiniMax- 01 是這家公司的技術(shù)品味和技術(shù)路線在今天的一個(gè)集中展示。
它再次把很多人相信的實(shí)驗(yàn)性要素,一步一步組成它自己信仰的基礎(chǔ)模型架構(gòu),并用最極致且真刀真槍堆資源的方式實(shí)現(xiàn)了出來。
1
相信線性注意力和MoE,建造一個(gè)全新模型架構(gòu)
根據(jù)這份技術(shù)報(bào)告里提供的評(píng)測(cè)信息,MiniMax- 01 在業(yè)界主流的文本和多模態(tài)理解任務(wù)上的表現(xiàn),在大多數(shù)任務(wù)上追平了來自O(shè)penAI和Anthropic的最先進(jìn)模型,在長(zhǎng)文能力上,它與目前在上下文能力上最強(qiáng)的Google Gemini對(duì)比,顯示出更強(qiáng)的穩(wěn)定性,并且隨著輸入文本的增加,評(píng)分開始出現(xiàn)明顯的領(lǐng)先。
作為同時(shí)擁有多個(gè)明星toC產(chǎn)品的公司,MiniMax也構(gòu)建了一個(gè)基于真實(shí)助手場(chǎng)景數(shù)據(jù)的測(cè)試集,它在其中的表現(xiàn)也呈現(xiàn)出同樣的特征,基本能力在第一梯隊(duì),長(zhǎng)文本能力明顯領(lǐng)先。
“這個(gè)工作的核心是我們第一次把線性注意力機(jī)制擴(kuò)展到商用模型的級(jí)別,從Scaling Law、與MoE的結(jié)合、結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練優(yōu)化和推理優(yōu)化層面做了綜合的考慮。由于是業(yè)內(nèi)第一次做如此大規(guī)模的主要依賴線性注意力模型,我們幾乎重構(gòu)了我們的訓(xùn)練和推理系統(tǒng),包括更高效的MoE All-to-all通訊優(yōu)化、更長(zhǎng)的序列的優(yōu)化,以及推線性注意力層的高效Kernel實(shí)現(xiàn)?!盡iniMax介紹。
這是一個(gè)長(zhǎng)期的系統(tǒng)性的工作,從算法到架構(gòu)再到軟硬件訓(xùn)推一體的基礎(chǔ)設(shè)施,MiniMax的技術(shù)品味和定力基本都體現(xiàn)在了MiniMax- 01 的創(chuàng)新上。
在去年MiniMax第一次開發(fā)者活動(dòng)上,創(chuàng)始人就曾系統(tǒng)分享過MiniMax的技術(shù)“信仰”:更快的訓(xùn)練和推理,而實(shí)現(xiàn)方式他當(dāng)時(shí)也舉了兩個(gè)例子:線性注意力和MoE。而這次的開源模型技術(shù)報(bào)告基本就是那次分享的“交作業(yè)”,它難得把MiniMax的諸多工作展示給了外界。
在MoE上,一年前MiniMax正式全量上線了國(guó)內(nèi)第一個(gè)千億參數(shù)的MoE模型。簡(jiǎn)單來說,MoE (Mixture of Experts 混合專家模型)架構(gòu)會(huì)把模型參數(shù)劃分為多組“專家”,每次推理時(shí)只有一部分專家參與計(jì)算。這種架構(gòu)可以讓模型在小參數(shù)的情況下把計(jì)算變得更精細(xì),然后擁有大參數(shù)才有的處理復(fù)雜任務(wù)的能力。
對(duì)于MoE模型來說,設(shè)置幾個(gè)專家、決定專家分配的路由如何優(yōu)化等,是決定它效率的關(guān)鍵。此次的MiniMax-01,經(jīng)過各種實(shí)驗(yàn)后,確定模型內(nèi)使用 32 個(gè)專家模塊,雖然總參數(shù)量達(dá)到了 4560 億,但每個(gè) token 激活的參數(shù)僅為 45.9 億。這個(gè)設(shè)定的現(xiàn)實(shí)考慮,是要讓模型在單臺(tái)機(jī)器8 個(gè) GPU 和 640GB 內(nèi)存的條件下,使用 8 位量化處理超過 100 萬個(gè)token。同時(shí),它還改進(jìn)了全新的 Expert Tensor Parallel (ETP) 和 Expert Data Parallel (EDP) 架構(gòu),它們能幫助降低數(shù)據(jù)在不同專家模塊間通信的成本。
而更核心就是對(duì)注意力機(jī)制的重構(gòu)。
在MiniMax- 01 的性能報(bào)告里有這樣一張圖,從中可以看到,在其他模型處理256k的時(shí)間窗口內(nèi),MiniMax的模型可以處理多達(dá)100 萬個(gè)詞的信息。也就是說,即使模型一次只能專注于一部分內(nèi)容,它仍然可以通過高效的計(jì)算策略和巧妙的設(shè)計(jì),將更多信息納入整體理解。
把模型想象成在翻閱一本巨大的書,即使每次只能看幾頁,但它能記住之前的內(nèi)容,最終把整本書的知識(shí)都處理一遍。
對(duì)于傳統(tǒng)的Transformer來說,它使用Softmax注意力,需要為此構(gòu)建一個(gè)N×N 的全連接矩陣,對(duì)于超長(zhǎng)序列,這個(gè)矩陣會(huì)非常龐大。而 Lightning Attention 這樣的線性注意力機(jī)制則是進(jìn)行“分塊計(jì)算”(tiling),模型將超長(zhǎng)序列分成若干小塊,每個(gè)塊的大小固定,先計(jì)算塊內(nèi)部的詞之間的關(guān)系(intra-block),接著再通過一種遞歸更新的方法,將塊與塊之間的信息逐步傳遞(inter-block),使得最終可以捕捉到全局語義關(guān)系。
這個(gè)過程類似于分組討論:先解決每組內(nèi)部的問題,再匯總所有組的結(jié)果,最終得到全局的答案。
這種優(yōu)化大大減少了計(jì)算和內(nèi)存需求,也從傳統(tǒng) Softmax 注意力的平方復(fù)雜度降低為線性。
同時(shí),為了平衡效率與全局信息捕捉能力,它通過大量的實(shí)驗(yàn)最終找到當(dāng)下混合注意力機(jī)制的最佳配方: 7 比1。在 Transformer 的每 8 層中,有 7 層使用 Lightning Attention,高效處理局部關(guān)系;而剩下 1 層保留傳統(tǒng)的 Softmax 注意力,確保能夠捕捉關(guān)鍵的全局上下文。
和傳統(tǒng)的機(jī)制相比,一個(gè)是看書時(shí)候每個(gè)字都看,另一個(gè)是挑重點(diǎn)看,然后偶爾看一下目錄對(duì)照一下整體。效率自然不同。
此外,它還引入了Varlen Ring Attention,用來直接將整個(gè)文本拼接成一個(gè)連續(xù)的序列,從而讓變長(zhǎng)序列的數(shù)據(jù)在模型中按需分配資源;在預(yù)訓(xùn)練數(shù)據(jù)上使用數(shù)據(jù)打包(Data Packing),將不同長(zhǎng)度的文本拼接成連續(xù)的長(zhǎng)序列;在分布式計(jì)算時(shí)改進(jìn)了 Linear Attention Sequence Parallelism (LASP+),使模型能夠在多 GPU 之間高效協(xié)作,無需對(duì)文本進(jìn)行窗口切分。
某種程度上,MiniMax在引入線性注意力機(jī)制上的“哲學(xué)”,和它一直以來追逐MoE模型路線的思想是一脈相承的——就是用更聰明的方式解決問題,把資源發(fā)揮到極致,然后通過大量真刀真槍的實(shí)驗(yàn)把它在真實(shí)場(chǎng)景大規(guī)模實(shí)現(xiàn)。
線性注意力和MoE在MiniMax- 01 這里,成了絕配。
1
下個(gè)Transformer時(shí)刻
當(dāng)模型的代際迭代不再兇猛,上下文長(zhǎng)度和邏輯推理正在成為兩個(gè)最重點(diǎn)方向。
在上下文方面,此前Gemini一度是最長(zhǎng)的那個(gè)。而且,DeepMind的CEO Demsi Hassabis也曾透露,在Google內(nèi)部,Gemini模型已經(jīng)在實(shí)驗(yàn)中實(shí)現(xiàn)過 1000 萬token的長(zhǎng)度,并且相信最終會(huì)“抵達(dá)無限長(zhǎng)度”,但阻止Gemini現(xiàn)在就這么做的,是它對(duì)應(yīng)的成本。在最近的一個(gè)訪談里他表示,Deepmind目前已經(jīng)有新的方法來解決這個(gè)成本難題。
所以,誰能先把上下文長(zhǎng)度提高,同時(shí)把成本打下來,誰可能就會(huì)占得先機(jī)。從MiniMax- 01 展示的效果來看,它的效率確實(shí)獲得了質(zhì)的提升。
在這篇詳盡的技術(shù)報(bào)告里,從一個(gè)數(shù)據(jù)可以看出對(duì)于硬件的使用效率——在推理上,MiniMax 在 H20 GPU 上的MFU 達(dá)到了 75%。這是一個(gè)相當(dāng)高的數(shù)字。
MFU(Machine FLOPs Utilization,機(jī)器浮點(diǎn)利用率)指的是模型在運(yùn)行過程中對(duì)硬件計(jì)算能力(FLOPs,即每秒浮點(diǎn)運(yùn)算次數(shù))的實(shí)際利用率。簡(jiǎn)單來說,MFU 描述了一個(gè)模型是否充分發(fā)揮了硬件性能。高利用率必將帶來成本上的優(yōu)勢(shì)。
MiniMax01 無疑是近來死氣沉沉的“撞墻論”中,難得令人驚喜的模型之一。另一個(gè)最近引發(fā)廣泛討論的是DeepSeek V3。如上面所說,今天兩個(gè)重要的方向,一個(gè)在推理,一個(gè)在更長(zhǎng)上下文,Deepseek V3 和MiniMax-01 各自代表了其中一個(gè)。
有意思的是,從技術(shù)路線上,某種程度上兩者都是在對(duì)奠定今天繁榮基礎(chǔ)的Transformer里最核心的注意力機(jī)制做優(yōu)化,而且是大膽的重構(gòu),軟硬件一體的重構(gòu)。DeepSeek V3 被形容把Nvidia的卡榨干了,而MiniMax能夠?qū)崿F(xiàn)如此高的推理MFU,很關(guān)鍵的也是他們直接對(duì)訓(xùn)練框架和硬件做優(yōu)化。
根據(jù)MiniMax的報(bào)告,他們直接自己從零開始一步步深度開發(fā)了一個(gè)適合線性注意力的CUDA 內(nèi)核,并為此開發(fā)了各種配套的框架,來優(yōu)化 GPU 資源的利用效率。兩家公司都通過更緊密的軟硬結(jié)合能力實(shí)現(xiàn)了目標(biāo)。
另一個(gè)有意思的觀察是,這兩家出彩的公司,都是在ChatGPT出現(xiàn)之前就已經(jīng)投入到大模型技術(shù)研發(fā)里去的公司,這兩個(gè)模型驚艷之處也都不在于過去習(xí)慣看到的“追趕GPT4”的模式,而是根據(jù)自己對(duì)技術(shù)演進(jìn)的判斷,做出的重投入、甚至有些賭注意味的創(chuàng)新,在一系列持續(xù)的扎實(shí)工作后,交出的答卷。
而且這答卷也都不只是對(duì)自己的,它們都在試圖證明某些曾停留在實(shí)驗(yàn)室的概念,在大規(guī)模部署到實(shí)際場(chǎng)景里后也可以有它承諾的效果,并借此讓更多人繼續(xù)優(yōu)化下去。
這不免讓人聯(lián)想到Transformer出現(xiàn)的時(shí)候。
當(dāng)初Attention機(jī)制也已經(jīng)在實(shí)驗(yàn)室走紅,但爭(zhēng)議依然不斷,是相信它的潛力的Google真正堆上了算力和資源,把它從理論實(shí)驗(yàn),做成了大規(guī)模部署實(shí)現(xiàn)出來的真東西。接下來才有了人們蜂擁而上,沿著被證明的路線走到今天的繁榮。
當(dāng)時(shí)的Transformer把注意力機(jī)制堆了更多層,用上了更多的算力,今天的MiniMax- 01 則在嘗試徹底改造舊的注意力機(jī)制,一切都有些似曾相識(shí)。甚至當(dāng)時(shí)Google的研究員為了強(qiáng)調(diào)注意力機(jī)制而起的那個(gè)著名的論文標(biāo)題“Attention is all you need ”也非常適合被MiniMax借鑒:線性注意力is all you need ——
“模型目前仍有1/8 保留了普通softmax 注意力。我們正在研究更有效的架構(gòu),最終完全去掉softmax 注意力,從而有可能在不出現(xiàn)計(jì)算過載的前提下實(shí)現(xiàn)無限制上下文窗口?!?/p>
在這篇論文的最后,MiniMax的研究員們這樣寫道。
這顯然是巨大的野心,但在如今人們都在關(guān)注大模型接下來往哪兒走的時(shí)候,非常需要這樣的野心,非常需要一個(gè)或者更多個(gè)“Transformer時(shí)刻”——在一個(gè)自己相信的路線上做到極致,把看似所有人都知道的配方,最終兌現(xiàn)出來,展示給技術(shù)社區(qū)里的人們,讓它變成某個(gè)決定性的時(shí)刻,給AI的前進(jìn)再添把火。
(舉報(bào))