聲明:本文來自于微信公眾號AIGC開放社區(qū),授權(quán)站長之家轉(zhuǎn)載發(fā)布。
今天凌晨,微軟研究院開源了目前最強(qiáng)小參數(shù)模型——phi-4。
去年12月12日,微軟首次展示了phi-4,參數(shù)只有140億性能卻極強(qiáng),在GPQA研究生水平、MATH數(shù)學(xué)基準(zhǔn)測試中,超過了OpenAI的GPT-4o,也超過了同類頂級開源模型Qwen2.5-14B和Llama-3.3-70B。
在美國數(shù)學(xué)競賽AMC的測試中phi-4更是達(dá)到了91.8分,超過了Gemini Pro1.5、GPT-4o、Claude3.5Sonnet、Qwen2.5等知名開閉源模型,甚至整體性能可以與4050億參數(shù)的Llama-3.1媲美。
當(dāng)時很多人就希望微軟開源這款超強(qiáng)的小參數(shù)模型,甚至還有人在HuggingFace上傳盜版的phi-4權(quán)重?,F(xiàn)在,終于開源了,并且支持MIT許可證下商業(yè)用途。
開源地址:https://huggingface.co/microsoft/phi-4/tree/main
連HuggingFace官推都來祝賀,phi-4面子不小。
2025年美好的開始!有史以來最好的14B模型!!!
140參數(shù)的模型在MMLU獲得84.8分,太瘋狂了。恭喜!
謝謝你的模型和許可證變更!真棒。
你們都是英雄,趕緊下起來吧!
我期待Phi-4在Azure上實(shí)現(xiàn)無服務(wù)器功能。什么時候會可用?
小參數(shù)模型非常好。
Phi的小參數(shù)對于創(chuàng)意寫作來說是非常驚人的。
哇,phi-4模型能在蘋果的M4Pro筆記本上,以每秒約12個tokens的速度流暢運(yùn)行,這太棒了,感謝!
phi-4簡單介紹
phi-4能以如此小的參數(shù)在眾多測試基準(zhǔn)中打敗著名開閉源模型,高質(zhì)量的合成數(shù)據(jù)發(fā)揮了重要作用。
與傳統(tǒng)的從網(wǎng)絡(luò)爬取的有機(jī)數(shù)據(jù)相比,高質(zhì)量的合成數(shù)據(jù)更具優(yōu)勢。合成數(shù)據(jù)能夠提供結(jié)構(gòu)化、逐步的學(xué)習(xí)材料,使得模型能夠更加高效地學(xué)習(xí)語言的邏輯與推理過程。例如,在數(shù)學(xué)問題的解答中,合成數(shù)據(jù)可以按照解題步驟逐步呈現(xiàn),幫助模型更好地理解問題的結(jié)構(gòu)與解題思路。
此外,合成數(shù)據(jù)能夠更好地與模型的推理上下文對齊,更接近于模型在實(shí)際應(yīng)用中需要生成的輸出格式,這有助于模型在預(yù)訓(xùn)練階段就適應(yīng)實(shí)際應(yīng)用場景的需求。例如,將網(wǎng)絡(luò)論壇中的事實(shí)信息改寫成類似 大模型交互的風(fēng)格,使得這些信息在模型生成的對話中更加自然、合理。
phi-4的合成數(shù)據(jù)生成遵循多樣性、細(xì)膩性與復(fù)雜性、準(zhǔn)確性和推理鏈等原則。涵蓋了50多種不同類型的合成數(shù)據(jù)集,通過多階段提示流程、種子策劃、改寫與增強(qiáng)、自我修訂等多種方法,生成了約4000億個未加權(quán)的 tokens。
除了合成數(shù)據(jù),phi-4還對有機(jī)數(shù)據(jù)進(jìn)行了嚴(yán)格的篩選與過濾。研究團(tuán)隊(duì)從網(wǎng)絡(luò)內(nèi)容、授權(quán)書籍和代碼庫等多渠道收集數(shù)據(jù),并通過兩階段過濾過程,提取出具有高教育價值和推理深度的種子數(shù)據(jù)。
這些種子數(shù)據(jù)為合成數(shù)據(jù)的生成提供了基礎(chǔ),同時也直接用于預(yù)訓(xùn)練,進(jìn)一步豐富了模型的知識儲備。在篩選過程中,微軟采用了基于小分類器的過濾方法,從大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中挑選出高質(zhì)量的文檔。還針對多語言數(shù)據(jù)進(jìn)行了專門的處理,確保模型能夠處理包括德語、西班牙語、法語、葡萄牙語、意大利語、印地語和日語在內(nèi)的多種語言。
預(yù)訓(xùn)練方面,phi-4主要使用合成數(shù)據(jù)進(jìn)行訓(xùn)練,同時輔以少量的高質(zhì)量有機(jī)數(shù)據(jù)。這種數(shù)據(jù)混合策略使得模型能夠在學(xué)習(xí)推理和問題解決能力的同時,也能夠吸收豐富的知識內(nèi)容。
在中期訓(xùn)練階段,phi-4將上下文長度從4096擴(kuò)展到16384,以提高模型對長文本的處理能力。幫助模型進(jìn)一步增加了對長文本數(shù)據(jù)的訓(xùn)練,包括從高質(zhì)量非合成數(shù)據(jù)集中篩選出的長于8K 上下文的樣本,以及新創(chuàng)建的滿足4K 序列要求的合成數(shù)據(jù)集。
后訓(xùn)練階段是 phi-4優(yōu)化模型的關(guān)鍵。微軟采用了監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)技術(shù)。在 SFT 階段,使用來自不同領(lǐng)域的高質(zhì)量數(shù)據(jù)生成的約8B tokens對預(yù)訓(xùn)練模型進(jìn)行微調(diào),學(xué)習(xí)率為10-6,并添加了40種語言的多語言數(shù)據(jù),所有數(shù)據(jù)均采用 chatml 格式。
DPO 技術(shù)則通過生成偏好數(shù)據(jù)來調(diào)整模型的輸出,使其更符合人類偏好。微軟還引入了關(guān)鍵tokens搜索(PTS)技術(shù)來生成DPO 對,該技術(shù)能夠識別對模型回答正確性有重大影響的關(guān)鍵tokens,并針對這些tokens創(chuàng)建偏好數(shù)據(jù),從而提高模型在推理任務(wù)中的性能。
為了評估 phi-4的性能,微軟在多個基準(zhǔn)測試上進(jìn)行了測試。在學(xué)術(shù)基準(zhǔn)測試方面,如 MMLU、GPQA、MATH、HumanEval 等,phi-4表現(xiàn)出色。
在 MMLU測試中,phi-4取得了84.8的高分,在 GPQA 和 MATH 測試中,甚至超越了GPT -4o,在數(shù)學(xué)競賽相關(guān)的任務(wù)中展現(xiàn)出強(qiáng)大的推理能力。在與其他類似規(guī)模和更大規(guī)模的模型比較中,phi-4在12個基準(zhǔn)測試中的9個上優(yōu)于同類開源模型 Qwen -2.5-14B - Instruct。
(舉報)