站長之家(ChinaZ.com)7月5日 消息:最近,麻省理工學院(MIT)和微軟的研究學者發(fā)現(xiàn),GPT-4在自修復方面表現(xiàn)出了有效能力,而GPT-3.5則沒有。此外,GPT-4還能夠對GPT-3.5生成的代碼提供反饋。
大型語言模型(LLM)已經(jīng)被證明可以從自然語言中生成代碼片段,但在應對復雜的編碼挑戰(zhàn),例如專業(yè)競賽和軟件工程專業(yè)面試時,仍然面臨巨大挑戰(zhàn)。最近的研究試圖通過自修復來提高模型的編碼性能,自修復是指模型反思并糾正自身代碼中的錯誤。
論文地址:https://arxiv.org/pdf/2306.09896.pdf
從本研究的實驗中,研究者得出以下發(fā)現(xiàn):
考慮到檢查和修復的成本,只有GPT-4的自修復能力能夠提供性能收益;對于GPT-3.5,在所有配置下,修復的通過率低于或等于基線模型或無修復方法的通過率。
即使對于GPT-4,性能提升也是適度的(從66%提升到71%的通過率),而且取決于初始程序是否具有足夠的多樣性。實驗的預算是使用7000個標記,約45個獨立同分布(i.i.d.)的GPT-4樣本。
使用GPT-4生成的反饋替代GPT-3.5對錯誤的解釋,可以獲得更好的自修復性能,甚至超過了基線的無修復GPT-3.5方法(從50%提升到使用7000個標記時的54%)。
使用人類的解釋代替GPT-4自身的解釋可以顯著改善修復結果,從而使通過測試的修復程序數(shù)量增加57%。
愛丁堡大學的博士生符堯表示:“只有GPT-4具備自我改進的能力,而較弱的模型則沒有,這一發(fā)現(xiàn)非常有趣,表明大型模型可能具有一種新型的涌現(xiàn)能力,即通過改進自然語言反饋來實現(xiàn),這種能力可能只存在于模型足夠成熟(大而整齊)的情況下。類似的能力在論文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及?!?/p>
(舉報)