幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關鍵詞  > GPT-4最新資訊  > 正文

MIT微軟證實GPT-4具備自我糾錯能力 較弱的模型則沒有這種能力

2023-07-05 11:17 · 稿源:站長之家

站長之家(ChinaZ.com)7月5日 消息:最近,麻省理工學院(MIT)和微軟的研究學者發(fā)現(xiàn),GPT-4在自修復方面表現(xiàn)出了有效能力,而GPT-3.5則沒有。此外,GPT-4還能夠對GPT-3.5生成的代碼提供反饋。

大型語言模型(LLM)已經(jīng)被證明可以從自然語言中生成代碼片段,但在應對復雜的編碼挑戰(zhàn),例如專業(yè)競賽和軟件工程專業(yè)面試時,仍然面臨巨大挑戰(zhàn)。最近的研究試圖通過自修復來提高模型的編碼性能,自修復是指模型反思并糾正自身代碼中的錯誤。

image.png

論文地址:https://arxiv.org/pdf/2306.09896.pdf

從本研究的實驗中,研究者得出以下發(fā)現(xiàn):

考慮到檢查和修復的成本,只有GPT-4的自修復能力能夠提供性能收益;對于GPT-3.5,在所有配置下,修復的通過率低于或等于基線模型或無修復方法的通過率。

即使對于GPT-4,性能提升也是適度的(從66%提升到71%的通過率),而且取決于初始程序是否具有足夠的多樣性。實驗的預算是使用7000個標記,約45個獨立同分布(i.i.d.)的GPT-4樣本。

使用GPT-4生成的反饋替代GPT-3.5對錯誤的解釋,可以獲得更好的自修復性能,甚至超過了基線的無修復GPT-3.5方法(從50%提升到使用7000個標記時的54%)。

使用人類的解釋代替GPT-4自身的解釋可以顯著改善修復結果,從而使通過測試的修復程序數(shù)量增加57%。

愛丁堡大學的博士生符堯表示:“只有GPT-4具備自我改進的能力,而較弱的模型則沒有,這一發(fā)現(xiàn)非常有趣,表明大型模型可能具有一種新型的涌現(xiàn)能力,即通過改進自然語言反饋來實現(xiàn),這種能力可能只存在于模型足夠成熟(大而整齊)的情況下。類似的能力在論文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及?!?/p>

舉報

  • 相關推薦
  • 對標GPT-4代碼解釋器!港中大讓模型寫代碼解決數(shù)學難題,得分超越GPT-4

    對標GPT-4代碼解釋器,港中大最新研究放了個“大招”:他們開發(fā)了一個叫做MathCoder的大模型,數(shù)學能力直接在競賽級“題庫”Math上超過GPT-4。做到這一點靠的就是無縫集成代碼的能力——在遇到數(shù)學問題時,它不僅能用自然語言推理能自動編寫和執(zhí)行代碼來建模、推導公式與方程。通訊作者為李鴻升,為港中大電子工程系副教授,同時也就職于上海人工智能研究室。

  • 「字少信息量大」,Salesforce、MIT 研究者手把手教 GPT-4「改稿」,數(shù)據(jù)集已開源

    自動摘要技術取得了長足的進步,這主要歸功于范式的轉變——從在標注數(shù)據(jù)集上進行有監(jiān)督微調轉變?yōu)槭褂么笳Z言模型進行零樣本prompt,例如GPT-4。不需要額外的訓練,細致的prompt就能實現(xiàn)對摘要長度、主題、風格等方面特征的精細控制。更多論文細節(jié),可參考原論文。

  • 谷歌讓大模型更具“心智”,GPT-4任務準確率大增

    谷歌聯(lián)合多所高校的一項最新研究,讓大模型開始擁有了人類的“心智”。在新的提示策略下,大模型不僅能推測出人類所面臨的問題學會了用推測的結論調整自己的行為。來自谷歌、卡耐基梅隆大學和的芝加哥大學的學者也參與了本項目。

  • 智譜AI發(fā)布MathGLM數(shù)學模型 算術任務性能優(yōu)于GPT-4

    智譜AI發(fā)布MathGLM數(shù)學模型,旨在增強大模型在數(shù)學推理方面的性能。它能夠精確計算算術運算,包括基礎算術運算和復雜混合運算,并提升模型的中文數(shù)學解決能力。MathGLM還在解決不同年級數(shù)學問題和數(shù)學應用題上進行了實驗,取得了較好的結果。

  • GPT-4就是AGI,谷歌斯坦??茖W家揭秘大模型如何超智能

    【新智元導讀】谷歌研究院和斯坦福HAI的兩位專家發(fā)文稱,現(xiàn)在最前沿的AI模型,未來將會被認為是第一代AGI。最前沿的LLM已經(jīng)用強大的能力證明,AGI即將到來!通用人工智能,其實已經(jīng)實現(xiàn)了?最近,來自谷歌研究院和斯坦福HAI的大佬發(fā)文稱,現(xiàn)在的大預言模型就是通向AGI的正確方向現(xiàn)在最前沿的模型,已經(jīng)擁有AGI的能力了!這兩位作者都是AI業(yè)界大佬,BlaiseAgüerayArcas現(xiàn)在是Google

  • DeepMind讓大模型學會歸納和演繹,GPT-4準確率提升13.7%

    大型語言模型在推理任務上表現(xiàn)出令人驚艷的能力,特別是在給出一些樣例和中間步驟時。prompt方法往往依賴于LLM中的隱性知識,當隱性知識存在錯誤或者與任務不一致時,LLM就會給出錯誤的回答。對于GPT3.5來說,這種改進并不顯著,因為在處理文本輸入時,它經(jīng)常產(chǎn)生除規(guī)則幻覺以外的錯誤。

  • 模型總結摘要靠譜嗎?比人類寫的流暢,用GPT-4幻覺還少

    作為自然語言生成中的一項任務,主要用來將一大段長文本壓縮為簡短的摘要,例如新聞文章、源代碼和跨語言文本等多種內容都能用到。隨著大模型的出現(xiàn),傳統(tǒng)的在特定數(shù)據(jù)集上進行微調的方法已經(jīng)不在適用。本文還發(fā)現(xiàn)微調模型生成的摘要往往具有固定且嚴格的長度LLM能夠根據(jù)輸入信息調整輸出長度。

  • GPT-4太燒錢,微軟想甩掉OpenAI?曝出Plan B:千塊GPU專訓「小模型」,開啟必應內測

    GPT-4太吃算力,微軟被爆內部制定了PlanB,訓練更小、成本更低的模型,進擺脫OpenAI。GPT-4太吃算力,連微軟也頂不住了!今年,無數(shù)場微軟AI大會上,CEO納德拉臺前激動地官宣,將GPT-4、DALL·E3整合到微軟「全家桶」。畢竟后者對哪些公司可以將其開源LLM進行商業(yè)化是有所限制的。

  • 國產(chǎn)大模型推理能力已超GPT-3.5!沖進OpenAI評測榜第一梯隊

    OpenAI開源的數(shù)學數(shù)據(jù)集,中國廠商新成績一舉沖到最前列!就在9月16日,國產(chǎn)大模型在權威推理評測集GSM8K中,首次達到了80%正確率,大幅領先GPT-3.5和LLaMA2-70B。且這家廠商在大模型榜單上刷新全球紀錄,已經(jīng)不是第一次了??梢圆豢鋸埖卣f一句,昆侖萬維和它家的天工大模型,已經(jīng)是大模型江湖中,一個繞不過去的狠角色了。

  • ChatGPT/GPT-4/Llama電車難題大PK!小模型道德感反而更高?

    微軟對大語言模型的道德推理能力進行了測試,但在電車問題中大尺寸的模型表現(xiàn)反比小模型差。但最強大語言模型GPT-4的道德得分依舊是最高的。這與研究最初的假設:大型模型總是比小型模型具有更強的能力相反,說明利用這些較小的模型開發(fā)道德系統(tǒng)具有很大的潛力。

熱文

  • 3 天
  • 7天