聲明:本文來自于微信公眾號 新智元,作者:新智元,授權站長之家轉(zhuǎn)載發(fā)布。
【新智元導讀】OpenAI o1和o3模型的秘密,竟傳出被中國研究者「破解」?今天,復旦等機構的這篇論文引起了AI社區(qū)的強烈反響,他們從強化學習的角度,分析了實現(xiàn)o1的路線圖,并總結了現(xiàn)有的「開源版o1」。
就在今天,國內(nèi)的一篇論文,引得全球AI學者震驚不已。
推上多位網(wǎng)友表示,OpenAI o1和o3模型背后究竟是何原理——這一未解之謎,被中國研究者「發(fā)現(xiàn)」了!
注:作者是對如何逼近此類模型進行了理論分析,并未聲稱已經(jīng)「破解」了這個問題
實際上,在這篇長達51頁的論文中,來自復旦大學等機構的研究人員,從強化學習的角度分析了實現(xiàn)o1的路線圖。
其中,有四個關鍵部分需要重點關注:策略初始化、獎勵設計、搜索和學習。
此外,作為路線圖的一部分,研究者還總結出了現(xiàn)有的「開源版o1」項目。
論文地址:https://arxiv.org/abs/2412.14135
探索OpenAI的「AGI之迷」
概括來說,像o1這樣的推理模型,可以被認為是LLM和AlphaGo這類模型的結合。
首先,模型需要通過「互聯(lián)網(wǎng)數(shù)據(jù)」進行訓練,使它們能夠理解文本,并達到一定的智能水平。
然后,再加入強化學習方法,讓它們「系統(tǒng)地思考」。
最后,在尋找答案的過程中,模型會去「搜索」解決方案空間。這種方法既用于實際的「測試時」回答,也用于改進模型,即「學習」。
值得一提的是,斯坦福和谷歌在2022年的「STaR: Self-Taught Reasoner」論文中提出,可以利用LLM在回答問題之前生成的「推理過程」來微調(diào)未來的模型,從而提高它們回答此類問題的能力。
STaR讓AI模型能夠通過反復生成自己的訓練數(shù)據(jù),自我「引導」到更高的智能水平,理論上,這種方法可以讓語言模型超越人類水平的智能。
因此,讓模型「深入分析解決方案空間」的這一理念,在訓練階段和測試階段都扮演著關鍵角色。
在這項工作中,研究者主要從以下四個層面對o1的實現(xiàn)進行了分析:策略初始化、獎勵設計、搜索、學習。
策略初始化
策略初始化使模型能夠發(fā)展出「類人推理行為」,從而具備高效探索復雜問題解空間的能力。
海量文本數(shù)據(jù)預訓練
指令微調(diào)
問題分析、任務分解和自我糾正等學習能力
獎勵設計
獎勵設計則通過獎勵塑造或建模提供密集有效的信號,指導模型的學習和搜索過程。
結果獎勵(基于最終結果)
過程獎勵(基于中間步驟)
結果獎勵(左)和過程獎勵(右)
搜索
搜索在訓練和測試中都起著至關重要的作用,即通過更多計算資源可以生成更優(yōu)質(zhì)的解決方案。
MCTS等樹搜索方法探索多種解決方案
連續(xù)修訂迭代改進答案
結合兩種方法可能是最佳選擇
搜索過程中使用的指導類型:內(nèi)部指導、外部指導,以及兩者的結合
學習
從人工專家數(shù)據(jù)中學習需要昂貴的數(shù)據(jù)標注。相比之下,強化學習通過與環(huán)境的交互進行學習,避免了高昂的數(shù)據(jù)標注成本,并有可能實現(xiàn)超越人類的表現(xiàn)。
政策梯度方法,如PPO和DPO
從高質(zhì)量搜索解決方案克隆行為
迭代搜索和學習周期
綜上,正如研究者們在2023年11月所猜測的,LLM下一個突破,很可能就是與谷歌Deepmind的Alpha系列(如AlphaGo)的某種結合。
對此,有網(wǎng)友表示,這項研究的意義絕不僅僅是發(fā)表了一篇論文,它還為大多數(shù)模型打開了大門,讓其他人可以使用RL來實現(xiàn)相同的概念,提供不同類型的推理反饋,同時還開發(fā)了AI可以使用的劇本和食譜。
「開源版o1」
研究者總結道,盡管o1尚未發(fā)布技術報告,但學術界已經(jīng)提供了多個o1的開源實現(xiàn)。
此外,工業(yè)界也有一些類似o1的模型,例如 k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker。
g1:這項研究可能是最早嘗試重新實現(xiàn)o1的項目。
Thinking Claude:與g1類似,但它通過更復雜和細粒度的操作來提示LLM。
Open-o1:項目提出了一個SFT數(shù)據(jù)集,其中每個響應都包含CoT。研究者推測,這些數(shù)據(jù)可能來自人類專家或一個強大的LLM。
o1Journey:通過兩篇技術報告中進行了詳細描述。第一部分通過束搜索生成的樹數(shù)據(jù)進行遍歷,特定節(jié)點由GPT-4優(yōu)化后用于SFT,這一策略可以被描述為專家迭代。第二部分則嘗試對o1-mini進行蒸餾,并通過prompt來恢復隱藏的CoT過程。
Open-Reasoner:框架類似于AlphaGo,通過強化學習提升模型性能。
慢思考與LLM:研究同樣分為兩篇技術報告。第一部分與Open-Reasoner類似,結合了強化學習和測試時的搜索。第二部分從QwQ和Deepseek-R1中蒸餾,并嘗試了兩種強化學習方法。
Marco-o1:項目將Open-o1的數(shù)據(jù)與模型自身通過MCTS算法生成的數(shù)據(jù)結合,用于SFT訓練。
o1-coder:項目嘗試在代碼生成領域重新實現(xiàn)o1。
不同開源o1項目在策略初始化、獎勵設計、搜索和學習領域的方法對比
策略初始化
在強化學習中,策略定義了智能體如何根據(jù)環(huán)境狀態(tài)選擇行動。
其中,LLM的動作粒度分為三種級別:解決方案級別、步驟級別和Token級別。
智能體與環(huán)境在LLM強化學習中的交互過程
對于LLM的初始化過程,主要包括兩個階段:預訓練和指令微調(diào)。
在預訓練階段,模型通過大規(guī)模網(wǎng)絡語料庫的自監(jiān)督學習,發(fā)展出基本的語言理解能力,并遵循計算資源與性能之間的既定冪律規(guī)律。
在指令微調(diào)階段,則是將LLM從簡單的下一個Token預測,轉(zhuǎn)變?yōu)樯膳c人類需求一致的響應。
對于像o1這樣的模型,融入類人推理行為對于更復雜的解決方案空間探索至關重要。
預訓練
預訓練通過大規(guī)模文本語料庫的接觸,為LLM建立基本的語言理解和推理能力。
對于類似o1的模型,這些核心能力是后續(xù)學習和搜索中發(fā)展高級行為的基礎。
語言理解與生成:語言理解是分層次發(fā)展的——句法模式較早涌現(xiàn),而邏輯一致性和抽象推理則在訓練的后期階段逐步形成。因此除了模型規(guī)模外,訓練時長和數(shù)據(jù)組成也至關重要。
世界知識獲取與存儲:知識存儲具有高效的壓縮和泛化特性,而抽象概念相比事實性知識需要更廣泛的訓練。
基礎推理能力:預訓練通過多樣化的推理模式發(fā)展了基礎推理能力,后者以從簡單推斷到復雜推理的層次結構逐步涌現(xiàn)。
指令微調(diào)
指令微調(diào)通過在多領域的指令-響應對上進行專門訓練,將預訓練語言模型轉(zhuǎn)變?yōu)槊嫦蛉蝿盏闹悄荏w。
這一過程將模型的行為從單純的下一個Token預測,轉(zhuǎn)變?yōu)榫哂忻鞔_目的的行為。
效果主要取決于兩個關鍵因素:指令數(shù)據(jù)集的多樣性和指令-響應對的質(zhì)量。
類人推理行為
盡管經(jīng)過指令微調(diào)的模型展現(xiàn)了通用任務能力和用戶意圖理解能力,但像o1這樣的模型,需要更復雜的類人推理能力來充分發(fā)揮其潛力。
如表1所示,研究者對o1的行為模式進行了分析,識別出六種類人推理行為。
問題分析:問題分析是一個關鍵的初始化過程,模型在解決問題前會先重新表述并分析問題。
任務分解:在面對復雜問題時,人類通常會將其分解為若干可管理的子任務。
任務完成:之后,模型通過基于明確問題和分解子任務的逐步推理,生成解決方案。
替代方案:當面臨推理障礙或思路中斷時,生成多樣化替代解決方案的能力尤為重要。如表1所示,o1在密碼破解中展現(xiàn)了這一能力,能夠系統(tǒng)性地提出多個選項。
自我評估:任務完成后,自我評估作為關鍵的驗證機制,用于確認所提解決方案的正確性。
自我糾正:當推理過程中出現(xiàn)可控錯誤時,模型會采用自我糾正行為來解決這些問題。在o1的演示中,當遇到諸如「No」或「Wait」之類的信號時,會觸發(fā)糾正過程。
關于o1策略初始化的推測
策略初始化在開發(fā)類似o1的模型中起到了關鍵作用,因為它建立了影響后續(xù)學習和搜索過程的基礎能力。
策略初始化階段包括三個核心組成部分:預訓練、指令微調(diào)以及類人推理行為的開發(fā)。
盡管這些推理行為在指令微調(diào)后的LLM中已隱性存在,但其有效部署需要通過監(jiān)督微調(diào)或精心設計的提示詞來激活。
長文本生成能力:在推理過程中,LLM需要精細的長文本上下文建模能力。
合理塑造類人推理行為:模型還需要發(fā)展以邏輯連貫方式,有序安排類人推理行為的能力。
自我反思:自我評估、自我糾正和替代方案提議等行為,可視為模型自我反思能力的表現(xiàn)。
獎勵設計
在強化學習中,智能體從環(huán)境中接收獎勵反饋信號,并通過改進策略來最大化其長期獎勵。
獎勵函數(shù)通常表示為r(st, at),表示智能體在時間步t的狀態(tài)st下執(zhí)行動作at所獲得的獎勵。
獎勵反饋信號在訓練和推理過程中至關重要,因為它通過數(shù)值評分明確了智能體的期望行為。
結果獎勵與過程獎勵
結果獎勵是基于LLM輸出是否符合預定義期望來分配分數(shù)的。但由于缺乏對中間步驟的監(jiān)督,因此可能會導致LLM生成錯誤的解題步驟。
與結果獎勵相比,過程獎勵不僅為最終步驟提供獎勵信號,還為中間步驟提供獎勵。盡管展現(xiàn)了巨大的潛力,但其學習過程比結果獎勵更具挑戰(zhàn)性。
獎勵設計方法
由于結果獎勵可以被視為過程獎勵的一種特殊情況,許多獎勵設計方法可以同時應用于結果獎勵和過程獎勵的建模。
這些模型常被稱為結果獎勵模型(Outcome Reward Model,ORM)和過程獎勵模型(Process Reward Model,PRM)。
來自環(huán)境的獎勵:最直接的獎勵設計方法是直接利用環(huán)境提供的獎勵信號,或者學習一個模型來模擬環(huán)境中的獎勵信號。
從數(shù)據(jù)中建模獎勵:對于某些環(huán)境,環(huán)境中的獎勵信號無法獲取,也無法進行模擬。相比直接提供獎勵,收集專家數(shù)據(jù)或偏好數(shù)據(jù)更為容易。通過這些數(shù)據(jù),可以學習一個模型,從而提供有效的獎勵。
獎勵塑造
在某些環(huán)境中,獎勵信號可能無法有效傳達學習目標。
在這種情況下,可以通過獎勵塑造(reward shaping)對獎勵進行重新設計,使其更豐富且更具信息量。
然而,由于價值函數(shù)依賴于策略π,從一種策略估計的價值函數(shù)可能并不適合作為另一種策略的獎勵函數(shù)。
關于o1獎勵設計的推測
鑒于o1能夠處理多任務推理,其獎勵模型可能結合了多種獎勵設計方法。
對于諸如數(shù)學和代碼等復雜的推理任務,由于這些任務的回答通常涉及較長的推理鏈條,更可能采用過程獎勵模型(PRM)來監(jiān)督中間過程,而非結果獎勵模型(ORM)。
當環(huán)境中無法提供獎勵信號時,研究者推測,o1可能依賴于從偏好數(shù)據(jù)或?qū)<覕?shù)據(jù)中學習。
根據(jù)OpenAI的AGI五階段計劃,o1已經(jīng)是一個強大的推理模型,下一階段是訓練一個能夠與世界交互并解決現(xiàn)實問題的智能體。
為了實現(xiàn)這一目標,需要一個獎勵模型,為智能體在真實環(huán)境中的行為提供獎勵信號。
獎勵集成:為通用任務構建獎勵信號的一種直觀方式是通過特定領域的獎勵集成。
世界模型:世界模型不僅能夠提供獎勵信號,還可以預測下一狀態(tài)。有研究認為,視頻生成器可以作為一種世界模型,因為它能夠預測未來時間步的圖像。
搜索
對于像o1這樣旨在解決復雜推理任務的模型,搜索可能在訓練和推理過程中都發(fā)揮重要作用。
搜索指導
基于內(nèi)部指導的搜索不依賴于來自外部環(huán)境或代理模型的真實反饋,而是通過模型自身的狀態(tài)或評估能力來引導搜索過程。
外部指導通常不依賴于特定策略,僅依賴于與環(huán)境或任務相關的信號來引導搜索過程。
同時,內(nèi)部指導和外部指導可以結合起來引導搜索過程,常見的方法是結合模型自身的不確定性與來自獎勵模型的代理反饋。
搜索策略
研究者將搜索策略分為兩種類型:樹搜索和序列修正。
樹搜索是一種全局搜索方法,同時生成多個答案,用于探索更廣泛的解決方案范圍。
相比之下,序列修正是一種局部搜索方法,基于先前結果逐步優(yōu)化每次嘗試,可能具有更高的效率。
樹搜索通常適用于復雜問題的求解,而序列修正更適合快速迭代優(yōu)化。
搜索在o1中的角色
研究者認為,搜索在o1的訓練和推理過程中,都起著至關重要的作用。
他們將這兩個階段中的搜索,分別稱為訓練時搜索(training-time search)和推理時搜索(test-time search)。
在訓練階段,在線強化學習中的試錯過程也可以被視為一種搜索過程。
在推理階段,o1表明,通過增加推理計算量和延長思考時間可以持續(xù)提高模型性能。
研究者認為,o1的「多思考」方式可以被視為一種搜索,利用更多的推理計算時間來找到更優(yōu)的答案。
關于o1搜索的推測
訓練階段搜索:在訓練過程中,o1更可能采用樹搜索技術,例如BoN或樹搜索算法,并主要依賴外部指導。
推理階段搜索:在推理過程中,o1更可能使用序列修正,結合內(nèi)部指導,通過反思不斷優(yōu)化和修正其搜索過程。
從o1博客中的示例可以看出,o1的推理風格更接近于序列修正。種種跡象表明,o1在推理階段主要依賴內(nèi)部指導。
學習
強化學習通常使用策略對軌跡進行采樣,并基于獲得的獎勵來改進策略。
在o1的背景下,研究者假設強化學習過程通過搜索算法生成軌跡,而不僅僅依賴于采樣。
基于這一假設,o1的強化學習可能涉及一個搜索與學習的迭代過程。
在每次迭代中,學習階段利用搜索生成的輸出作為訓練數(shù)據(jù)來增強策略,而改進后的策略隨后被應用于下一次迭代的搜索過程中。
訓練階段的搜索與測試階段的搜索有所不同。
研究者將搜索輸出的狀態(tài)-動作對集合記為D_search,將搜索中最優(yōu)解決方案的狀態(tài)-動作對集合記為D_expert。因此,D_expert是D_search 的一個子集。
學習方法
給定D_search,可通過策略梯度方法或行為克隆來改進策略。
近端策略優(yōu)化(PPO)和直接策略優(yōu)化 DPO)是LLM中最常用的強化學習技術。此外,在搜索數(shù)據(jù)上執(zhí)行行為克隆或監(jiān)督學習也是常見做法。
研究者認為,o1的學習可能是多種學習方法結合的結果。
在這一框架中,他們假設o1的學習過程從使用行為克隆的預熱階段開始,當行為克隆的改進效果趨于穩(wěn)定后,轉(zhuǎn)向使用PPO或DPO。
這一流程與LLama2和LLama3中采用的后訓練策略一致。
強化學習的Scaling Law
在預訓練階段,損失、計算成本、模型參數(shù)和數(shù)據(jù)規(guī)模之間的關系,是遵循冪律Scaling Law的。那么,對于強化學習,是否也會表現(xiàn)出來呢?
根據(jù)OpenAI的博客,推理性能與訓練時間計算量,確實呈對數(shù)線性關系。然而,除了這一點之外,相關研究并不多。
為了實現(xiàn)像o1這樣的大規(guī)模強化學習,研究LLM強化學習的Scaling Law至關重要。
參考資料:
https://x.com/MatthewBerman/status/1875202596350415332
https://x.com/WesRothMoney/status/1875051479180165489
https://arxiv.org/abs/2412.14135
(舉報)