聲明:本文來自于微信公眾號 AI新榜,作者:卷毛,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
2024年,是AI指數(shù)級發(fā)展的又一年。
大模型浪潮滾滾向前,在技術(shù)創(chuàng)新和應(yīng)用落地上取得多項(xiàng)突破,引起了海內(nèi)外廣泛關(guān)注和討論。
從年初Sora驚艷亮相到國產(chǎn)AI視頻生成模型大放異彩;
AI視頻進(jìn)化對比,X@Dexerto
從多模態(tài)模型GPT-4o到推理模型o3;
OpenAI o3模型演示
從一句話生成一首歌到一張圖生成3D建模;
Suno主頁
從毒舌Dan成為賽博男友到AI獨(dú)角獸C.ai賣身谷歌;
Character.ai主頁
從智能體會自主操作手機(jī)和電腦到AI編程工具Cursor爆火;
Cursor主頁
從首部《人工智能法案》頒布到AI“魔改”短視頻被整改……
AI魔改《甄嬛傳》
這一年,AI行業(yè)在快速發(fā)展的同時(shí),也面臨著版權(quán)、倫理、隱私等多方面的挑戰(zhàn),不斷沖擊著人類社會的各個(gè)角落。
AI科技公司的競爭更加白熱化,巨頭們輪番推出各自的新模型和新產(chǎn)品,技術(shù)突破與商業(yè)化并進(jìn),尤其在圖像、視頻、3D領(lǐng)域持續(xù)加碼,為AIGC創(chuàng)作帶來更多想象力。
“AI新榜”一直在追蹤AI行業(yè)的前沿?zé)狳c(diǎn),特別是與內(nèi)容行業(yè)相關(guān)的大模型和應(yīng)用發(fā)展,每個(gè)工作日更新#AI日報(bào),每周更新#AI一周熱門,每月匯總AIGC行業(yè)關(guān)鍵信息,從2024年2月起至今,已發(fā)布11期#AIGC月刊。
以此為基礎(chǔ),我們整理了2024年值得關(guān)注的AI大事件,并嘗試對2025年AI行業(yè)的熱門趨勢進(jìn)行了預(yù)測。
接下來,請與我們一起循著AI的脈絡(luò),通向未來的大門。
制圖:NUPD
AI推理模型訓(xùn)練加速
自2023年推出GPT-4后,OpenAI的GPT系列成為全球最具影響力的基礎(chǔ)大模型,但其壟斷優(yōu)勢在2024年被打破,比如Anthropic的Claude3Sonnet、谷歌的Gemini2.0都已經(jīng)后來追上,穩(wěn)列第一梯隊(duì)。
2024年“百模大戰(zhàn)”主要聚焦在多模態(tài)和推理能力,OpenAI上線了高級語音模式和視頻通話功能,《Her》逐漸成為現(xiàn)實(shí)。而推理模型需要消耗更多的算力,也需要更久的等待時(shí)間,據(jù)量子位《2024年度AI十大趨勢報(bào)告》,以O(shè)penAI的o1模型為代表,模仿學(xué)習(xí)+強(qiáng)化學(xué)習(xí)成為典型AI發(fā)展路徑范式。
“從o1到o3的進(jìn)展只有三個(gè)月,這表明RL的新范式在擴(kuò)展推理計(jì)算的思維鏈上的進(jìn)展將有多快,”O(jiān)penAI研究員Jason Wei在一條推文中寫道,“比每1-2年對新模型進(jìn)行預(yù)訓(xùn)練范式要快得多?!?/p>
Anthropic聯(lián)創(chuàng)Jack Clark認(rèn)為,OpenAI年底發(fā)布的o3意味著2025年的AI進(jìn)展將比2024年更快。
Jack Clark博客:https://jack-clark.net/
此外,開源模型與閉源模型并行發(fā)展,Meta AI、微軟、谷歌、Mistral AI 、阿里、智譜、DeepSeek等團(tuán)隊(duì)陸續(xù)將開源模型推向了新的高度,其中年底發(fā)布的DeepSeek v3表現(xiàn)亮眼,與Claude3.5Sonnet不相上下。另一方面,大模型運(yùn)行token的成本也在激烈的價(jià)格戰(zhàn)中快速下降,比如Gemini1.5Flash8B定價(jià)為0.0375美元/mTok——比去年的GPT-3.5Turbo便宜27倍。
AGI仍未到來,2025年我們大概也不會看到所謂的超級智能,但未來的曙光已經(jīng)越來越逼近了。據(jù)埃隆?馬斯克預(yù)測,到2025年底,AI將超越任何單個(gè)個(gè)體的智力,而到2027至2028年,它甚至可能會超越所有人類的智力。到2030年,AI超越所有人類智力的可能性幾乎是100%。
第一批AI智能體即將上崗
AI Agent是2024年最熱門的AI行業(yè)應(yīng)用趨勢之一。中文將其通常翻譯為“智能體”,兩者的概念定義不盡相同,這里我們指的是基于AI技術(shù),能夠自主感知、思考并執(zhí)行決策的智能體。
據(jù)谷歌智能體白皮書,智能體是“加強(qiáng)版”的AI,它通過觀察世界、使用工具、制定計(jì)劃和采取行動來實(shí)現(xiàn)目標(biāo),可以自主行動,超越了基礎(chǔ)模型,更像是人類解決問題的方式。即使缺少人類的指令,智能體也能推理下一步應(yīng)該做什么。
谷歌智能體白皮書:https://www.kaggle.com/whitepaper-agents
微軟、谷歌、OpenAI、Anthropic、百度、智譜、字節(jié)等各大廠商都在積極搶占AI智能體市場。2024年10月,Anthropic推出的Computer Use(計(jì)算機(jī)使用)功能驚艷四座,可以讓Claude像人一樣使用計(jì)算機(jī)。智譜的AutoGLM同樣不甘示弱,手機(jī)端可以自主執(zhí)行超過50步的長步驟操作,也可以跨App執(zhí)行任務(wù),包括導(dǎo)航、網(wǎng)購、點(diǎn)外賣、微信聊天、寫點(diǎn)評等。
2025年1月6日,Sam Altman在《反思(Reflections)》這篇博客中表示,現(xiàn)在OpenAI知道如何構(gòu)建傳統(tǒng)定義的AGI,開始將目標(biāo)轉(zhuǎn)向真正意義上的超級智能。
“在2025年,我們可能會看到第一批AI智能體‘加入勞動力大軍’,并實(shí)質(zhì)性地改變公司的產(chǎn)出。”
Sam Altman博客全文:https://blog.samaltman.com/
此前據(jù)內(nèi)部員工爆料,OpenAI正準(zhǔn)備推出一款代號為“Operator”的智能體,可以自動執(zhí)行各種復(fù)雜操作,包括編寫代碼、預(yù)訂旅行、自動電商購物等,該產(chǎn)品預(yù)計(jì)將在2025年1月發(fā)布。
正如前騰訊混元大模型技術(shù)負(fù)責(zé)人劉威所預(yù)測的,到2025年,智能體作為AI原生應(yīng)用將會爆發(fā),成為商業(yè)軟件和SaaS的未來。
國產(chǎn)AI視頻模型繼續(xù)領(lǐng)先
英偉達(dá)高級科學(xué)家Jim Fan曾預(yù)測2024年是AI視頻之年,實(shí)際的確如此。
OpenAI推出Sora之后,其創(chuàng)新的DiT(Diffusion Transformer)架構(gòu)引領(lǐng)行業(yè)發(fā)展,市面上AI視頻生成模型和產(chǎn)品層出不窮,尤其從下半年開始,快手可靈、智譜清影、MiniMax的海螺視頻、阿里的通義萬相、字節(jié)的豆包和即夢、騰訊混元視頻等國產(chǎn)AI視頻產(chǎn)品后來居上,在生成時(shí)長、分辨率、運(yùn)動合理性、可控性等方面都有了顯著提升。
海外AI視頻產(chǎn)品的更新迭代依舊沒有放緩,包括谷歌的Veo、Runway Gen-3Alpha、Pika、Luma AI的Dream Machine等;開源方面,初創(chuàng)公司Lightricks的LTX Video、Genmo的Mochi1等模型則降低了AI視頻的應(yīng)用門檻。
在產(chǎn)品功能上,AI逐漸向視頻創(chuàng)作的全流程滲透,生成長度更長,也更加穩(wěn)定可控了。除了基礎(chǔ)的文生視頻、圖生視頻,現(xiàn)在部分產(chǎn)品還支持多張圖片生成視頻(首尾幀、參考圖片主體/背景),視頻生視頻(風(fēng)格轉(zhuǎn)繪、視頻拓展),此外還有給視頻配音效、人物對口型、AI換臉、故事板等功能。
對于專業(yè)創(chuàng)作者來說,AI已是輔助創(chuàng)作的得力工具,業(yè)內(nèi)不少AI加持的短劇、廣告片、電影相繼落地。而對于C端用戶,AI視頻產(chǎn)品簡單易上手,各種有趣的特效模板最受歡迎,例如可靈讓人們穿越時(shí)空擁抱,Pika用AI模擬爆炸、捏扁等視頻特效,Pixverse的毒液變身特效等。我們還給網(wǎng)友們激情創(chuàng)作的AI抽象視頻專門頒了個(gè)獎。
隨著AI視頻質(zhì)量不斷提升,訓(xùn)練數(shù)據(jù)侵權(quán)、深度偽造詐騙等安全合規(guī)問題也引起廣泛關(guān)注。對于AI視頻廠商而言,如何降低算力成本、提高推理速度、商業(yè)化等都是擺在眼前的一道道難題。
可以預(yù)見,2025年AI視頻依舊是競逐激烈的熱門賽道,技術(shù)創(chuàng)新是競爭核心,國產(chǎn)AI視頻產(chǎn)品仍有優(yōu)勢。
通向AGI的關(guān)鍵路徑是世界模型
AI對話、圖像生成和視頻生成已經(jīng)“卷”到飛起,一些玩家開始將目光鎖定至3D內(nèi)容生成,例如Luma AI、Meshy、Tripo。在短視頻、游戲配件、工業(yè)設(shè)計(jì)等領(lǐng)域,AI建模的3D內(nèi)容已經(jīng)有了用武之地。
“我們生活在一個(gè)三維世界中,AI只有突破對3D世界的理解和生成,才能真正追趕上人類智能?!?024年12月,由“AI教母”李飛飛聯(lián)合創(chuàng)辦的World Labs發(fā)布了首個(gè)“空間智能(Spatial intelligence)”模型,能夠僅從一張二維圖片生成可交互的3D世界,用戶可以在3D場景中像玩游戲一樣自由控制相機(jī)來探索。
World Labs官網(wǎng):https://www.worldlabs.ai/blog
空間智能是相對于語言智能的一個(gè)概念,比大型語言模型 (LLM)更進(jìn)一步,可以感知、生成3D世界并與之交互,這樣的AI系統(tǒng)被稱為大型世界模型(LWM) 。
類似的世界模型還有谷歌的Genie2,它能夠生成各種可操作、可玩的3D環(huán)境,可用于訓(xùn)練和評估智能體。
Genie2博客:https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
Sora核心作者Tim Brooks跳槽到谷歌DeepMind后,近期他表示要招募新團(tuán)隊(duì)來制作大量世界模型。據(jù)量子位報(bào)道,新團(tuán)隊(duì)會和谷歌旗下Gemini、Veo和Genie等團(tuán)隊(duì)合作,致力于在構(gòu)建的世界模型之上開發(fā)“實(shí)時(shí)交互生成”工具;并研究如何將世界模型們與現(xiàn)有的多模態(tài)模型,如Gemini等集成。
谷歌表示,在視頻和多模態(tài)數(shù)據(jù)上擴(kuò)展預(yù)訓(xùn)練是實(shí)現(xiàn)AGI的關(guān)鍵路徑。
不僅是3D內(nèi)容創(chuàng)作,未來世界模型有望推動自動駕駛、機(jī)器人、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等多個(gè)領(lǐng)域的創(chuàng)新和進(jìn)步。
蘋果入場,AI硬件有待爆發(fā)
QuestMobile報(bào)告顯示,當(dāng)下LLM的落地應(yīng)用在網(wǎng)頁端、移動端都已比較成熟,正逐步拓展至智能硬件端。手機(jī)則是目前LLM最成熟的落地硬件載體之一,廠商從“卷”配置走向“卷”AI,熱賣的新上市機(jī)型基本均為AI手機(jī)。
蘋果在2024年秋季正式進(jìn)入AI市場,首批Apple Intelligence功能已面向iPhone、iPad和Mac用戶推出,支持AI寫作、通知摘要、照片增強(qiáng)等功能。并且隨著Siri和ChatGPT的整合,蘋果可能在2025年占據(jù)AI手機(jī)市場的領(lǐng)先地位。
不過蘋果Apple Intelligence暫時(shí)沒有向中國市場推出。國內(nèi)Android手機(jī)廠商則陸續(xù)啟動了AI手機(jī)戰(zhàn)略,華為、小米、榮耀、OPPO、VIVO等品牌都在新品中內(nèi)置了AI功能,包括AI語音助手、AI寫作、AI修圖、AI搜索、AI翻譯等。
據(jù)新智元報(bào)道,IT前沿創(chuàng)新與智能科技產(chǎn)業(yè)研究專家胡延平認(rèn)為,2025年會是智能手機(jī)大年,且有多場熱戰(zhàn)。AI顯而易見是第一戰(zhàn)場,超級入口又是AI的第一戰(zhàn)場,而語音自然交互的“嘴控”又是超級入口的第一戰(zhàn)場。
除了手機(jī),面向C端消費(fèi)者的AI硬件主要集中在智能穿戴設(shè)備和智能家居,如耳機(jī)、眼鏡、音箱。其中AI眼鏡受到熱捧,蘋果、Meta、谷歌、華為、百度、字節(jié)等科技大廠都有所布局。
雷朋和Meta合作的AI眼鏡
但現(xiàn)階段智能穿戴類產(chǎn)品無法脫離軟件實(shí)現(xiàn)AI功能(大多需要與其對應(yīng)的App連接),技術(shù)局限和相對高昂的價(jià)格也是制約因素。未來AI眼鏡的應(yīng)用場景或?qū)⑦M(jìn)一步拓展和深化,從騎行、徒步等運(yùn)動垂類場景,覆蓋至戶外多場景需求。
總之,新的一年,“AI新榜”會繼續(xù)和你一起見證、參與AI行業(yè)的風(fēng)起云涌。
(舉報(bào))