站長之家(ChinaZ.com) 10 月 20 日消息:Facebook 母公司 Meta 當(dāng)?shù)貢r(shí)間周五正式發(fā)布了一批來自其研究部門的新 AI 模型,其中包括一個(gè)名為「自學(xué)評(píng)估器」(Self-Taught Evaluator)的模型,這可能為減少人類在 AI 開發(fā)過程中的參與度提供了一條新路徑。
此次發(fā)布緊隨 Meta 在 8 月份一篇論文中介紹該工具之后,該論文詳細(xì)說明了如何依賴與 OpenAI 最近發(fā)布的 o1 模型中使用的「思維鏈」技術(shù),來讓模型對(duì)其輸出進(jìn)行可靠判斷。
這一技術(shù)通過將復(fù)雜問題拆解為更小的邏輯步驟,顯著提高了在科學(xué)、編程和數(shù)學(xué)等領(lǐng)域解決難題的準(zhǔn)確性。
Meta 的研究人員完全使用 AI 生成的數(shù)據(jù)來訓(xùn)練這個(gè)評(píng)估器模型,完全消除了人工輸入的需求。
使用 AI 可靠地評(píng)估 AI 的能力展示了未來實(shí)現(xiàn)自主 AI 智能體的可能路徑。該項(xiàng)目的兩位 Meta 研究人員向路透社表示,這種 AI 智能體能夠從自身錯(cuò)誤中學(xué)習(xí)。
AI 領(lǐng)域的許多人設(shè)想,這類智能體可以作為高度智能的數(shù)字助手,能夠在無需人類干預(yù)的情況下執(zhí)行廣泛的任務(wù)。
自我改進(jìn)的 AI 模型有望取代當(dāng)前常用的昂貴且低效的基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)過程,這種方法要求具有專業(yè)知識(shí)的人類標(biāo)注員來標(biāo)記數(shù)據(jù)并驗(yàn)證復(fù)雜數(shù)學(xué)和寫作問題的答案是否正確。
「我們希望,隨著 AI 的發(fā)展,它能越來越好地檢查自己的工作,從而超越普通人的表現(xiàn),」該項(xiàng)目研究員之一 Jason Weston 說道。
他說:「自我學(xué)習(xí)并能自我評(píng)估是實(shí)現(xiàn)這種超越人類水平 AI 的關(guān)鍵?!?/strong>
包括谷歌和 Anthropic 在內(nèi)的其他公司也發(fā)布了關(guān)于 RLAIF(基于 AI 反饋的強(qiáng)化學(xué)習(xí))概念的研究。但與 Meta 不同的是,這些公司通常不公開發(fā)布其模型供公眾使用。
Meta 在周五發(fā)布的其他 AI 工具還包括對(duì)公司圖像識(shí)別模型 Segment Anything 的更新、一種加快大語言模型(LLM)響應(yīng)生成時(shí)間的工具,以及可用于發(fā)現(xiàn)新型無機(jī)材料的數(shù)據(jù)集。
(舉報(bào))