11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
“MoE”加上“前所未有大規(guī)模投入生產(chǎn)環(huán)境的LightningAttention”,再加上“從框架到CUDA層面的如軟件和工程重構(gòu)”,會得到什么?一個追平了頂級模型能力、且把上下文長度提升到400萬token級別的新模型。這顯然是巨大的野心,但在如今人們都在關(guān)注大模型接下來往哪兒走的時候,非常需要這樣的野心,非常需要一個或者更多個“Transformer時刻”——在一個自己相信的路線上做到極致,把看似所有人都知道的配方,最終兌現(xiàn)出來,展示給技術(shù)社區(qū)里的人們,讓它變成某個決定性的時刻,給AI的前進再添把火。
歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、萬物皆可一鍵毛茸茸!阿里通義App上線“局部風(fēng)格化”功能通義App最近推出的“局部風(fēng)格化”功能引發(fā)了社交平臺的熱潮。這項研究強調(diào)了AI電腦在任務(wù)處理、隱私保護和自適應(yīng)學(xué)?
阿里云百煉宣布,最新的Qwen2.5-Turbo模型已在平臺上線,即日起所有用戶可在阿里云百煉調(diào)用Qwen2.5-TurboAPI,百萬tokens僅需0.3元,同時還免費為用戶贈送1000萬tokens額度。該模型支持100萬超長上下文,相當(dāng)于100萬個英文單詞或150萬個漢字,并且在多個長文本評測集中的性能表現(xiàn)超越GPT-4。不過通義千問團隊也表示,長文本任務(wù)處理依然存在諸多挑戰(zhàn),未來將進一步探索長序列人類偏好對齊,優(yōu)化推理效率以減少運算時間,并繼續(xù)研發(fā)更大、更強的長文本模型。
【新智元導(dǎo)讀】當(dāng)今的LLM已經(jīng)號稱能夠支持百萬級別的上下文長度,這對于模型的能力來說,意義重大。但近日的兩項獨立研究表明,它們可能只是在吹牛,LLM實際上并不能理解這么長的內(nèi)容。這些差異可能是由于訓(xùn)練任務(wù)的變化造成的。
OpenAI突然發(fā)布了GPT-4o的迷你版本——GPT-4omini。這個模型替代了原來的GPT-3.5,作為免費模型在ChatGPT上提供。這是否會挑戰(zhàn)更大、基于云的模型的主導(dǎo)地位還有待觀察,但它無疑為AI在企業(yè)環(huán)境中的整合開辟了新的可能性。
近日,月之暗面宣布Kimi開放平臺正式公測新技術(shù)——上下文緩存,該技術(shù)在API價格不變的前提下,可為開發(fā)者降低最高90%的長文本大模型使用成本,并且顯著提升模型的響應(yīng)速度。據(jù)了解,月之暗面是國內(nèi)首家面向開發(fā)者推出上下文緩存技術(shù)的大模型公司。Kimi開放平臺陸續(xù)上線了工具調(diào)用、PartialMode、上下文緩存等能力,持續(xù)幫助開發(fā)者高效打造更有想象力的AI應(yīng)用。
歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、前百度高管景鯤創(chuàng)業(yè)AI搜索估值18億推出首款產(chǎn)品Genspark作為前百度高管,景鯤創(chuàng)立了新公司MainFunc并推出首款產(chǎn)品Genspark,旨在通過AI技術(shù)提供優(yōu)質(zhì)搜索體驗。參與者更傾向于使?
OpenAI出手再次驚艷世界,谷歌果然坐不住了。GPT-4o掀起的一片“AGI已至”的驚呼聲中,剛剛,GoogleDeepMind首席執(zhí)行官哈薩比斯親自攜谷歌版《Her》登場:同樣能會還有,不僅能幾乎沒有延遲地和人類流暢交流,通過攝像頭,這個名為ProjectAstra的AI助手甚至能直接幫忙讀代碼谷歌還祭出了自己的硬件優(yōu)勢,帶來一波AR和大模型的夢幻聯(lián)動。有關(guān)谷歌I/O的更多細(xì)節(jié),可以戳:https://blog.go
騰訊開源了混元DiT圖像生成模型,對英語和中文都有著精細(xì)的理解能力。Hunyuan-DiT能夠進行多輪多模態(tài)對話,根據(jù)對話上下文生成并細(xì)化圖像。它通過結(jié)合Transformer結(jié)構(gòu)、文本編碼和位置編碼,以及訓(xùn)練一個多模態(tài)大型語言型,實現(xiàn)了對中英文的細(xì)粒度理解,并在圖像生成等任務(wù)中取得了顯著的效果。
大型語言模型往往會追求更長的「上下文窗口」,但由于微調(diào)成本高、長文本稀缺以及新token位置引入的災(zāi)難值等問題,目前模型的上下文窗口大多不超過128k個token最近,MicrosoftResearch的研究人員提出了一個新模型LongRoPE,首次將預(yù)訓(xùn)練LLM的上下文窗口擴展到了2048k個token,在256k的訓(xùn)練長度下只需要1000個微調(diào)步驟即可,同時還能保持原始短上下文窗口的性能。論文鏈接:https://arxiv