聲明:本文來自于微信公眾號新智元,作者:新智元,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
【新智元導(dǎo)讀】今天,「天工大模型4.0」o1版/4o版在網(wǎng)頁端和APP端正式上線了,人人可玩的那種。
最近,2024中國互聯(lián)網(wǎng)價值榜發(fā)布。
2024年AIGC應(yīng)用用戶規(guī)模TOP榜中,昆侖萬維旗下天工AI強勢入圍!
如今,天工AI已經(jīng)取得了中國典型工具類AIGC應(yīng)用TOP4的好成績,在多梯隊的猛烈廝殺格局中穩(wěn)穩(wěn)占據(jù)優(yōu)勢。
同時,還不斷有好消息傳來。
就在今天,天工大模型4.0o1版/4o版正式上線天工網(wǎng)頁端和APP。底座大模型,正式進化到「天工4.0」。
「天工大模型4.0」 o1版(Skywork o1)的上線,意味著國內(nèi)首款中文邏輯推理能力的o1模型來了!
數(shù)學(xué)高考題、考研題、奧數(shù)題,Skywork o1都能靠自己的逐步思考破解。
注意!Skywork o1并不是簡單地復(fù)現(xiàn)OpenAI o1模型的工作。它不僅在模型輸出上內(nèi)生了思考、計劃、反思等能力,還在模型真正擁有了思考和反思之后,帶來了推理能力的提升。
在最近熱轉(zhuǎn)的復(fù)旦等機構(gòu)解密OpenAI o1路線圖這一研究中,skywork-o1就被列為國內(nèi)o1級模型的代表之一
并且,昆侖萬維天工大模型4.0上線后,應(yīng)用端不僅在邏輯推理和代碼功能上有了幾大提升,語音交互上的表現(xiàn)也著實令人驚嘆。
一個月正式發(fā)布的新產(chǎn)品「實時語音對話助手Skyo」,如今有了史詩級提升。
眾網(wǎng)友實測后紛紛表示,原來國內(nèi)版的「Her」,已經(jīng)進化到了不輸OpenAI版本的地步!
具備多語言對話能力的Skyo,不僅能快速響應(yīng)、主動發(fā)起對話、實時打斷,給出的回應(yīng)還十分情感化,已經(jīng)具備了類人特征。
還等什么,實測馬上呈上。
超強推理+自我反思,免費體驗
現(xiàn)在,分別打開天工APP或網(wǎng)頁端,任何人皆可免費享用最新天工4.04o版或o1版模型加持的AI了。
既然主打的是推理,那么我們就先來看看Skywork o1在數(shù)學(xué)題上的表現(xiàn)如何。
體驗地址:https://www.tiangong.cn/o1Chat/055
先來個硬核的,AIME數(shù)學(xué)競賽題。
題目是這樣的——
Jen通過從S={1,2,3, ... ,9,10} 中挑選4個不同的數(shù)字來參加抽獎。從S中隨機選擇4個號碼。如果她的至少兩個號碼是隨機選擇的號碼中的2個,她就能贏得獎金;如果她的四個號碼都是隨機選擇的號碼,她就能贏得大獎。假設(shè)她贏得了獎品,她贏得大獎的概率是m/n,其中m和n是相對質(zhì)的正整數(shù)。求m+n。
Skywork o1用時1分55秒,經(jīng)過一番思考后,最終給出了正確答案——116。
對于下面這道同樣有些難度的數(shù)學(xué)題,模型在經(jīng)過一番思考之后,很快就想到了用圖論中的「圖蘭定理」去解。
值得一提的是,在思考過程中它對答案不確定時,甚至?xí)此甲约旱幕卮?,直至最終確定25是正確答案。
一個象棋比賽,共有十名選手參加,每一個選手都需要和其他選手每人下一盤棋,賽程進行到某階段時,發(fā)現(xiàn)任意三個選手中,起碼有兩個相互之間還沒有下過一盤棋,此時至多進行了多少場比賽?
2024年高考新課標(biāo)一卷的數(shù)學(xué)真題,Skywork o1也能做出正確答案,就是方法稍微「笨」了點。
復(fù)雜一些的邏輯推理題,Skywork o1也能做對。
這道從池塘中取水的推理題,它通過一步步的思考過程,推理出了正確答案。
還有這道「一個人花8塊錢買了一只雞,9塊錢賣掉了,然后他覺得不劃算,花10塊錢又買回來了,11塊賣給另外一個人。問他賺了多少」,Skywork o1反復(fù)斟酌之后給出了正確的答案。
為什么剛出生的小孩只有一只左眼?這個腦筋急轉(zhuǎn)彎,沒能瞞過Skywork o1的眼睛。
弱智吧難題,不在話下。
比如父母以后的錢都是留給我的,可不可以認為父母現(xiàn)在正在花我的錢?Skywork o1從財產(chǎn)所有權(quán)、繼承權(quán)、遺囑和繼承法、道德和家庭關(guān)系方面給出了全面的回答。
呂布馬上無敵,典韋步戰(zhàn)無敵,呂布騎著典韋會不會天下無敵?Skywork o1表示,有趣的腦洞只是一個戲謔的表達,而非嚴肅的歷史或軍 事討論。
最后,上一道LeetCode貪心算法的分發(fā)餅干代碼難題。題目如下——
假設(shè)你是一位很棒的家長,想要給你的孩子們一些小餅干。但是,每個孩子最多只能給一塊餅干。
對每個孩子i,都有一個胃口值 g[i],這是能讓孩子們滿足胃口的餅干的最小尺寸;并且每塊餅干j,都有一個尺寸s[j] 。如果s[j] >= g[i],我們可以將這個餅干j分配給孩子i,這個孩子會得到滿足。你的目標(biāo)是盡可能滿足越多數(shù)量的孩子,并輸出這個最大數(shù)值。
Skywork o1也順利給出了答案。
自研技術(shù)方案,持續(xù)創(chuàng)新迭代
那么,Skywork o1為何能在邏輯推理任務(wù)上,有如此大幅的提升?
這就要得益于天工三階段自研的訓(xùn)練方案。
推理反思能力訓(xùn)練
首先,在推理訓(xùn)練方面,團隊通過自主研發(fā)的多智能體體系,構(gòu)建出了高質(zhì)量的分步推理、反思與驗證數(shù)據(jù)。
然后,用這些高質(zhì)量且多樣化的長思考數(shù)據(jù),對基座模型進行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào),并在版本迭代中采用大規(guī)模的自蒸餾和拒絕采樣,從而顯著提升了模型的訓(xùn)練效率和邏輯推理能力。
推理能力強化學(xué)習(xí)
其次,在強化學(xué)習(xí)階段,團隊創(chuàng)新性地提出了一種適配分步推理強化的獎勵模型——Skywork o1Process Reward Model(PRM)。
在最新的版本中,團隊將Skywork-PRM的應(yīng)用范圍,從原本側(cè)重的數(shù)學(xué)和代碼領(lǐng)域,拓展到了常識推理、邏輯推演和倫理決策等更廣泛的場景中。同時,還針對寫作、閑聊等通用領(lǐng)域以及多輪對話構(gòu)建了專門的訓(xùn)練數(shù)據(jù),實現(xiàn)了全場景覆蓋。
此外,團隊重點提升了Skywork-PRM的模塊化評估能力,特別是在處理o1風(fēng)格思維鏈方面,優(yōu)化了試錯和反思驗證機制。通過更細致的評估體系,為強化學(xué)習(xí)和搜索過程提供了更精準的獎勵信號指導(dǎo)。
推理planning
最后,在推理的規(guī)劃方面,團隊通過自研的Q*線上推理算法,以及模型的在線思考能力,實現(xiàn)了最優(yōu)推理路徑的尋找。
概括來說,Q*算法通過借鑒人類大腦中「System2」的思考方式,將LLM的多步推理過程抽象為一個啟發(fā)式搜索問題。
然后,再通過Q*線上推理框架與模型在線思考的結(jié)合,實現(xiàn)了推理過程中的精細規(guī)劃,進而指導(dǎo)LLM的解碼過程。
Q*算法的成功落地,不僅顯著提升了模型的線上推理能力,同時也標(biāo)志著Q*算法的全球首次實現(xiàn)和公開。
論文地址:https://arxiv.org/abs/2406.14283
更進一步的,團隊基于Q*算法對推理系統(tǒng)進行了全面優(yōu)化。
第一點是模塊化的樹形結(jié)構(gòu)推理:
團隊通過高質(zhì)量、多樣化的長思考數(shù)據(jù)對Skywork o1進行預(yù)訓(xùn)練和監(jiān)督微調(diào),使模型具備了對整個推理流程進行系統(tǒng)規(guī)劃,自動將回答按層次展開,同時在推理過程中融入自我反思和驗證環(huán)節(jié)的結(jié)構(gòu)化輸出能力。
此外,還創(chuàng)新性地利用以「模塊」為單位的規(guī)劃方式,取代了傳統(tǒng)的以「句子」為單位的方法。既提升了規(guī)劃效率,也使PRM能夠基于更完整的模塊化回答進行準確判斷和推理指導(dǎo)。
第二點是自適應(yīng)的搜索資源分配:
針對現(xiàn)有o1風(fēng)格模型存在的過度思考問題,團隊開發(fā)出了一種全新的自適應(yīng)搜索資源分配機制。也就是,通過對用戶query進行難度預(yù)估,自適應(yīng)地控制搜索樹的寬度和深度,進而實現(xiàn)簡單問題快速響應(yīng)、復(fù)雜問題多輪驗證的動態(tài)平衡,有效提升了系統(tǒng)的計算效率和回答準確率。
最終,Skywork o1在GSM8k,MATH,OlympiadBench,AIME-24和AMC-23標(biāo)準數(shù)學(xué)基準測試,以及HumanEval、MBPP、LiveCodeBench和BigCodeBench代碼基準測試中,性能顯著優(yōu)于常規(guī)通用大模型,表現(xiàn)僅次于o1-mini。
實時語音助手,開啟AI交互新紀元
在APP端,「天工大模型4.0」4o版加持的實時語音對話助手Skyo,同樣帶來了前所未有的自然交互體驗。
它不僅能在1秒內(nèi)快速響應(yīng),還具備了多語言對話、主動發(fā)起對話、實時被打斷的能力。
與此同時,4o未來版本可以支持個性化聲音定制功能,能夠以任何人希望的風(fēng)格暢聊。
這是這種個性化的體驗,讓4o不再是冰冷的AI,而是一個更智能的AI伙伴。
當(dāng)你喚醒Skyo后,他會主動熱情打招呼,并嘗試開啟一個新的話題。當(dāng)你生活中遇到難題時,可以向它尋求建議和幫助。
比如,家里2歲的寶寶總是說不要不要,我該怎么辦?
冰箱里有雞蛋、生菜、西紅柿、雞腿、香菇,根據(jù)這些原材料,能幫我推薦一份食譜嗎?
當(dāng)你想要策劃一場旅行,它還會貼心地為你做好攻略——我計劃去北京度假3天,你能幫我做一份攻略嗎?
甚至,當(dāng)你無聊時,可以讓Skyo玩腦筋急轉(zhuǎn)彎、猜字謎,或者一起聊天......
比如,我們一起玩腦筋急轉(zhuǎn)彎吧,我問你答。什么瓜不能吃?麒麟到了北極會變成什么?
我們還對Skyo進行了壓力測試,看看在不斷被打斷的情況下,它能否依舊表現(xiàn)亮眼?
「幫我朗讀一首李白的靜夜思;李白的寫作風(fēng)格是怎樣的?和李白同時期的著名詩人有哪些?幫我再朗讀一首杜甫的詩」。
果不其然,在整個對話過程中,它完全能夠跟上節(jié)奏,不僅有感情地朗讀出詩仙的靜夜思,并在古代詩人相關(guān)的信息問答中,給出了準確且豐富的回答。
接下來,我們一口氣連問四個問題,Skyo即便被頻頻打斷,也沒有「崩潰」。
「對于一個單身男青年,可以推薦他晚上看什么電影?什么情況下,說謊是個正確的選擇?怎么樣區(qū)分真誠的道歉和虛偽的道歉?如果動物會說話,它們會說些什么」?
從以上案例可以看出,Skyo具備了基本的智力能力和流暢的響應(yīng)度,而且它還能做出有趣的互動,成為你個性化的陪聊搭子。
多模態(tài)LLM端到端建模
深挖背后,Skywork4o加持的Skyo突破性體驗,是昆侖萬維基于大模型、AI音樂等領(lǐng)域的研發(fā)經(jīng)驗,以及大量的語音數(shù)據(jù)積累,打造出這個端到端的語音對話系統(tǒng)。
傳統(tǒng)的語音助手采用了ASR(語音識別)+NLU(自然語言理解)+TTS(語音合成)級聯(lián)方案去實現(xiàn)。
英偉達高級科學(xué)家Jim Fan曾指出,AI語音系統(tǒng)Whisper、大模型ChatGPT,以及語音合成技術(shù)VALL-E,是讓諸如Siri/Alexa等傳統(tǒng)語音助手得到改善的一個系統(tǒng)流程。
不過,在此期間,三個獨立的模型在串聯(lián)過程中,會帶來響應(yīng)延遲,甚至是信息損失、優(yōu)化困難等問題。
對此,昆侖萬維選擇了一條艱難的創(chuàng)新之路,采用多模態(tài)LLM端到端建模。
端到端模型使得用戶的語音輸入經(jīng)過語音編碼器提取語義特征,通過適配模塊轉(zhuǎn)換為大語言模型(LLM)可理解的格式,LLM處理后生成語音回復(fù),實現(xiàn)端到端的語音交互。從根本上解決了這些難題。
團隊還采用了低比特率單碼本語音Tokenizer,在顯著降低延遲的同時還保持了音質(zhì)。為了擴展語音建模能力,Skywork4o在超百萬小時多語言語音數(shù)據(jù)上完成了訓(xùn)練。skyo支持全雙工流式輸出,確保了實時交互的體驗。
最關(guān)鍵的是,它不僅能準確識別語音內(nèi)容,還能捕捉語速、語調(diào)、情感等細微的特征,從而做出情感化的回應(yīng)。
比如我們問道,「我今天在路上偶遇到了一只流浪貓,看著它怪可憐的,所以我決定收養(yǎng)了它」。
Skyo的回答中語氣上揚,對這個行為做出了極大的肯定。
再比如,「我最近感到非常疲憊,心情有點差」。
Skyo感同身受地表示,「我能夠理解你現(xiàn)在不是處在最美好的狀態(tài)」。隨后,它又主動推薦了一些調(diào)節(jié)心情的方法。
「有時候,我甚至感覺自己不被人理解」。
聽完AI的回答,瞬間感到非常地溫暖貼心,甚至有時會給人一種在和知心朋友交流的錯覺。
一年迭三代,躋身國內(nèi)第一梯隊
縱觀全球AI行業(yè)的發(fā)展,過去一年里,應(yīng)用落地成為最受矚目的關(guān)鍵詞。
OpenAI新模型接連上新,再加上一些搜索、Canvas、高級語音模式等功能的推出,讓ChatGPT每周活躍用戶數(shù)直接沖破3億。
微軟押注的C o p i l o t不斷迭代,并賦能了更多平臺/工具,包括GitHub、Office365等等。
至于谷歌,今年最爆火的一款應(yīng)用非NotebookLM莫屬,一鍵轉(zhuǎn)寫總結(jié)播客讓所有人拍案叫絕。
還有Anthropic、亞馬遜、Meta等國外科技巨頭們,都在AI落地戰(zhàn)場上加速布局。
反觀國外,以阿里、騰訊、字節(jié)為代表的互聯(lián)網(wǎng)公司,以昆侖萬維、智譜AI、百川智能等為代表的AI公司,在這場競賽中也毫不遜色。
據(jù)QuestMobile統(tǒng)計,截至今年9月,國內(nèi)AI原生應(yīng)用活躍用戶數(shù)接近8000萬人。
其中,月活超百萬以上產(chǎn)品數(shù)量僅12個,而天工AI長期穩(wěn)居中國原生AIGC應(yīng)用月活TOP10,并且在月活用戶300-1000萬區(qū)間內(nèi)位居前三。
值得注意的是,昆侖萬維憑借其扎實的技術(shù)積累,以及清晰的戰(zhàn)略布局,正逐步確立自己在這個賽道中的領(lǐng)先地位。
去年5月,其主打產(chǎn)品天工AI日活躍用戶(DAU)已經(jīng)突破百萬大關(guān)。
作為一家老牌互聯(lián)網(wǎng)企業(yè),昆侖萬維從2008年誕生后,一直在書寫著自己的AI傳奇。
2020年,在GPT-3出世的這個關(guān)鍵節(jié)點上,團隊開始全面布局AIGC和大模型領(lǐng)域。
2024年,是昆侖萬維在AI領(lǐng)域的豐收年。
截至目前,他們已自研出五大模型體系,包括文本大模型、多模態(tài)大模型、3D大模型、視頻大模型和音樂大模型。
在大模型方面,團隊在2月推出MoE大語言模型「天工2.0」,緊接著4月又迭代了4000億參數(shù)的「天工3.0」,性能大幅超越Grok-1,一舉成為全球最大的開源MoE。
與此同時,音樂生成大模型「天工SkyMusic」正式誕生。6月,昆侖萬維開源了2000億稀疏大模型Skywork-MoE。再到11月,4o和o1版模型相繼誕生。
不僅如此,昆侖萬維的影響力已遍布全球市場。
比如,率先為歐洲iOS用戶推出AI瀏覽器Opera One;在AI創(chuàng)作領(lǐng)域,還發(fā)布了首個集成視頻大模型與3D大模型AI短劇平臺SkyReels等等。
目前,公司在全球平均有近4億月活,海外收入占比高達89.7%,在社交、游戲、音樂等領(lǐng)域已經(jīng)形成壁壘。
并且,還完成了「算力基礎(chǔ)設(shè)施—大模型算法—AI應(yīng)用」全產(chǎn)業(yè)鏈布局,構(gòu)建起了由AI大模型、AI搜索、AI游戲、AI音樂、AI社交、AI短劇組成的多元AI業(yè)務(wù)矩陣。
昆侖萬維的實踐帶來的啟示是,AI落地不僅僅需要強大的技術(shù)能力,更需要的是對應(yīng)用場景的深刻理解。
正是這種扎根于實際應(yīng)用場景的技術(shù)研發(fā)思路,使得團隊能夠準確把握用戶需求,將過往積累的能力快速轉(zhuǎn)化為解決世界問題的產(chǎn)品。
這次,4o和o1在天工全新上線,又將成為這款應(yīng)用破局的下一個爆發(fā)點。
不僅如此,昆侖萬維對AGI發(fā)展路徑的思考極具前瞻性。
回顧過去兩年,科技圈對AGI的討論可謂是起起落落。特別是2024年年初,隨著Sora誕生之后,許多人一度陷入過度樂觀的狂熱,認為AGI實現(xiàn)就在一兩年之內(nèi)。
然而到了年中,這股熱潮又迅速消退,悲觀論調(diào)開始盛行——AGI遙遙無期。
昆侖萬維創(chuàng)始人周亞輝對未來30年,做出了富有遠見的判斷:人類社會將從感知轉(zhuǎn)向表達,創(chuàng)作和自我表達將成為增長最快的曲線。AGI時代的標(biāo)志是人形機器人真正進入社會,2030年之后才會開始逐步實現(xiàn)通用人工智能AGI。
關(guān)于這個時間節(jié)點,他從未改變過。
不過,在邁向AGI時代之前,機器人技術(shù)的面臨著三大核心挑戰(zhàn):空間智能大模型;運動控制技術(shù);機器人商業(yè)化定位以及能源問題。這些挑戰(zhàn)的突破,皆需要全球頂尖AI科學(xué)家的努力。
周亞輝認為,機器人技術(shù)發(fā)展的進程如何,其在軍 事領(lǐng)域的應(yīng)用是一個重要的指標(biāo)。
未來,如果機器人產(chǎn)業(yè)帶來超10億美金市場規(guī)模,將會對整個社會結(jié)構(gòu)和社會治理產(chǎn)生重大的影響。
基于這些判斷,昆侖萬維在2024年初就確立了「實現(xiàn)AGI,讓每個人更好地塑造和表達自我」的新使命。
而現(xiàn)在,在這條通往AGI的道路上,他們正在用技術(shù)創(chuàng)新和產(chǎn)品落地,一步步將愿景變?yōu)楝F(xiàn)實。
參考資料:
https://artofproblemsolving.com/wiki/index.php/2024_AIME_I_Problems/Problem_4
天工o1模型:
https://www.tiangong.cn/o1Chat/055
(舉報)