11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來騰訊云選購吧!
10月24日,趣丸科技宣布與香港中文大學(xué)聯(lián)合研發(fā)的語音大模型“MaskGCT”正式在Amphion系統(tǒng)中開源,面向全球用戶開放使用。區(qū)別于傳統(tǒng)TTS模型,該模型采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式,在聲音克隆、跨語種合成、語音控制等任務(wù)中展現(xiàn)出卓越效果。以“趣丸千音”為代表的產(chǎn)品的出現(xiàn),將加速國產(chǎn)短劇“走出去”,進(jìn)一步推動中華文化在全球不同語境下的傳播。
就在剛剛,英偉達(dá)開源了超強(qiáng)模型Nemotron-70B,后者一經(jīng)發(fā)布就超越了GPT-4o和Claude3.5Sonnet,僅次于OpenAIo1!AI社區(qū)驚呼:新的開源王者又來了?業(yè)內(nèi)直呼:用Llama3.1訓(xùn)出小模型吊打GPT-4o,簡直是神來之筆!一覺醒來,新模型Nemotron-70B成為僅次o1的最強(qiáng)王者!是的,就在昨晚,英偉達(dá)悄無聲息地開源了這個超強(qiáng)大模型。它立刻在AI社區(qū)引發(fā)巨大轟動。對齊模型的性能:所有模型均由Llama-3.1-70B-Inst
開源大模型,已經(jīng)開啟大卷特卷模式。太平洋兩岸,雙雄格局正在呼之欲出。自研大模型的必要性和競爭力,正在不斷被開源卷王們卷沒了。
由阿里、復(fù)旦大學(xué)、南京大學(xué)聯(lián)合發(fā)布的可控人體視頻生成工作Champ火爆全網(wǎng)。該模型僅開源5天GitHub即收獲1k星,在Twitter更是「火出圈」,吸引了大量博主二創(chuàng),瀏覽量總量達(dá)到300K。更多技術(shù)細(xì)節(jié)以及實(shí)驗(yàn)結(jié)果請參閱Champ原論文與代碼,也可在HuggingFace或下載官方源碼動手體驗(yàn)。
只需一句話描述,就能在一大段視頻中定位到對應(yīng)片段!比如描述“一個人一邊下樓梯一邊喝水”,通過視頻畫面和腳步聲的匹配,新方法一下子就能揪出對應(yīng)起止時間戳:就連“大笑”這種語義難理解型的,也能準(zhǔn)確定位:方法名為自適應(yīng)雙分支促進(jìn)網(wǎng)絡(luò),由清華大學(xué)研究團(tuán)隊(duì)提出。ADPN是用來完成一個叫做視頻片段定位的視覺-語言跨模態(tài)任務(wù),也就是根據(jù)查詢文本從視頻中定位
【新智元導(dǎo)讀】最強(qiáng)的全能多模態(tài)模型來了!就在近日,智源研究院重磅發(fā)布了開源界的「Gemini」——Emu2,一口氣刷新多項(xiàng)SOTA。過去的18個月里,我們見證了AI領(lǐng)域許多重要的時刻。相比Emu1,Emu2使用了更簡單的建??蚣?、訓(xùn)練了更好的從特征重建原圖的解碼器、并把模型規(guī)?;?7B參數(shù)。
AI能理解搞笑視頻笑點(diǎn)在哪里了。北大等團(tuán)隊(duì)開源視覺語言大模型Video-LLaVA,將圖像和視頻表示對齊到統(tǒng)一的視覺特征空間,在13個圖片和視頻基準(zhǔn)上達(dá)到先進(jìn)的性能。在視頻理解方面,聯(lián)合訓(xùn)練的也得到了明顯的提升。
阿里云通義千問140億參數(shù)模型Qwen-14B及其對話模型Qwen-14B-Chat正式開源,免費(fèi)可商用。Qwen-14B在多個權(quán)威評測中超越同等規(guī)模模型,部分指標(biāo)甚至接近Llama2-70B。過去兩個月內(nèi),魔搭社區(qū)的模型下載量從4500萬飆升到8500萬,增幅接近100%。
開源軟件開發(fā)助手SoTaNa引起廣泛關(guān)注。SoTaNa旨在利用人工智能功能改進(jìn)軟件開發(fā)流程。10.文檔優(yōu)質(zhì)-自述文件編寫詳細(xì),可以快速上手使用。
【新智元導(dǎo)讀】打「排位賽」的大模型們背后秘密武器曝光!UC伯克利重磅開源神級LLM推理系統(tǒng)——vLLM,利用PagedAttention,比HuggingFace/Transformers快24倍,GPU數(shù)量減半。過去2個月,來自UC伯克利的研究人員給大語言模型們安排了一個擂臺——ChatbotArena。團(tuán)隊(duì)的大部分成員同時也是LMSYS成員。
【新智元導(dǎo)讀】Robin3D通過魯棒指令數(shù)據(jù)生成引擎生成的大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,以提高模型在3D場景理解中的魯棒性和泛化能力,在多個3D多模態(tài)學(xué)習(xí)基準(zhǔn)測試中取得了優(yōu)異的性能,超越了以往的方法,且無需針對特定任務(wù)的微調(diào)。多模態(tài)大語言模型以文本模態(tài)為基礎(chǔ),將其它各種模態(tài)對齊至語言模型的語義空間,從實(shí)現(xiàn)多模態(tài)的理解和對話能力。這種大幅的提升體現(xiàn)了對抗性數(shù)據(jù)對模型識別能力的提升。
【新智元導(dǎo)讀】o1模型發(fā)布1周,lmsys的6k投票就將o1-preview送上了排行榜榜首。為了滿足大家對模型「IOI金牌水平」的好奇心,OpenAI放出了o1測評時提交的所有代碼。這位網(wǎng)友還表示,o1基本沿用了GPT-4的架構(gòu);那你想,改換架構(gòu)后的GPT-5能達(dá)到什么高度。
這次是在多模態(tài)領(lǐng)域:就在剛剛,阿里國際AI團(tuán)隊(duì)開源多模態(tài)大模型Ovis1.6。對于廣大開發(fā)者言,來自于實(shí)干家們的開源貢獻(xiàn),亦是福音。
【新智元導(dǎo)讀】Mini-Monkey是一個輕量級的多模態(tài)大型語言模型,通過采用多尺度自適應(yīng)切分策略和尺度壓縮機(jī)制,有效緩解了傳統(tǒng)圖像切分策略帶來的鋸齒效應(yīng),提升了模型在高分辨率圖像處理和文檔理解任務(wù)的性能。它在多項(xiàng)基準(zhǔn)測試中取得了領(lǐng)先的成績,證明了其在多模態(tài)理解和文檔智能領(lǐng)域的潛力。作者也驗(yàn)證了多尺度自適應(yīng)切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性,為緩解由切分增大分辨率導(dǎo)致的「后遺癥」提供了一種簡單有效的解決方案。
提升多模態(tài)大模型處理高分辨率圖像的能力越來越引起這個領(lǐng)域的關(guān)注。絕大多數(shù)方法致力于通過對圖像進(jìn)行切分再融合的策略,來提升多模態(tài)大模型對圖像細(xì)節(jié)的理解能力。作者也驗(yàn)證了多尺度自適應(yīng)切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性,為緩解由切分增大分辨率導(dǎo)致的「后遺癥」提供了一種簡單有效的解決方案。
【新智元導(dǎo)讀】號稱不可能輕易被擊敗的AGI基準(zhǔn)ARC-AGI被GPT-4o撼動,GPT-4o以在公共測試集50%、在訓(xùn)練集71%的準(zhǔn)確率成為了新的SOTA!ARC-AGI是唯一可以用來衡量通用人工智能進(jìn)展的基準(zhǔn),創(chuàng)造者Fran?oisChollets曾經(jīng)擲下豪言——「它不可能輕易被擊敗!」為了測試這一點(diǎn),他于2020年在Kaggle上主辦了首屆ARC-AGI競賽。獲勝團(tuán)隊(duì)icecuber在測試集上僅取得了21%的成功率,這個成績強(qiáng)有力地證明了Fran?ois的斷言是正確的。「我的觀點(diǎn)并不是說GPT-4o相對于人類來說是聰明的,但我確實(shí)認(rèn)為它是具有『智能』的。
高質(zhì)量圖像編輯的方法有很多,但都很難準(zhǔn)確表達(dá)出真實(shí)的物理世界。EdittheWorld試試。最終可以看到,團(tuán)隊(duì)的方法可以很好地實(shí)現(xiàn)world-instructedimageediting。
【新智元導(dǎo)讀】OpenAI半小時的發(fā)布會讓很多人第一反應(yīng)是直呼「失望」,但隨著官網(wǎng)放出更多demo以及更多網(wǎng)友開始試用,大家才發(fā)現(xiàn)GPT-4o真的不可小覷,不僅在各種基準(zhǔn)測試中穩(wěn)拿第一有很多發(fā)布會從未提及的驚艷功能。OpenAI在發(fā)布會上官宣GPT-4o之后,各路大神也開始了對這個新模型的測評,結(jié)果就是,GPT-4o在多項(xiàng)基準(zhǔn)測試上都展現(xiàn)了SOTA的實(shí)力。隨著大模型之戰(zhàn)愈演愈烈,相信對于開源和閉源的激烈討論依舊會持續(xù)下去。
【新智元導(dǎo)讀】GPT-4o發(fā)布不到一周,首個敢于挑戰(zhàn)王者的新模型誕生!最近,Meta團(tuán)隊(duì)發(fā)布了「混合模態(tài)」Chameleon,可以在單一神經(jīng)網(wǎng)絡(luò)無縫處理文本和圖像。10萬億token訓(xùn)練的34B參數(shù)模型性能接近GPT-4V,刷新SOTA。*表示共同一作,?表示關(guān)鍵貢獻(xiàn)者,?表示工作流程負(fù)責(zé)人,?表示項(xiàng)目負(fù)責(zé)人。
視覺語言模型屢屢出現(xiàn)新突破,但ViT仍是圖像編碼器的首選網(wǎng)絡(luò)結(jié)構(gòu)。字節(jié)提出新基礎(chǔ)模型——ViTamin,專為視覺語言時代設(shè)計(jì)。更多大模型算法相關(guān)崗位開放中。
2024年4月17日,在「天工」大模型一周年之際,昆侖萬維重磅宣布,「天工3.0」基座大模型與「天工SkyMusic」音樂大模型正式開啟公測!一年前的今天,第一版天工大模型正式對外發(fā)布上線,一年來我們不斷迭代模型,迭代應(yīng)用產(chǎn)品,模型和應(yīng)用都越做越好,以此回報廣大用戶的支持?!柑旃ぁ瓜盗写竽P鸵鸭闪薃I音樂、AI搜索、AI寫作、AI長文本閱讀、AI畫圖、AI語音合成、AI漫畫創(chuàng)作、AI圖片識別、AI代碼寫作、AI表格生成等多項(xiàng)能力,并將在未來加入AI視頻功能,對標(biāo)“超級應(yīng)用”,成為人工智能時代的“超級大模型”。在“實(shí)現(xiàn)通用人工智能,讓每個人更好地塑造和表達(dá)自我”的公司使命驅(qū)動下,昆侖萬維將始終致力于AI技術(shù)與產(chǎn)品的創(chuàng)新開拓,不斷提高AI產(chǎn)品的用戶體驗(yàn),與用戶、研究人員、開發(fā)者們攜手,共創(chuàng)國產(chǎn)大模型的未來。
【新智元導(dǎo)讀】秒懂視頻的AI誕生了!KAUST和哈佛大學(xué)研究團(tuán)隊(duì)提出MiniGPT4-Video框架,不僅能理解復(fù)雜視頻,甚至還能作詩配文。OpenAI官方賬號發(fā)布了第一支由Sora制作的MV——Worldweight,引全網(wǎng)圍觀。下一步研究將模型能力擴(kuò)展到處理更長視頻的能力。
【新智元導(dǎo)讀】谷歌在語言和聲控計(jì)算機(jī)界面的漫長道路上又邁出了重要一步。最新ScreenAI視覺語言模型,能夠完成各種屏幕QA問答、總結(jié)摘要等任務(wù)。谷歌研究人員表示,ScreenAI模型還需要在一些任務(wù)上進(jìn)行更多研究,以縮小與GPT-4和Gemini等更大模型的差距。
【新智元導(dǎo)讀】谷歌團(tuán)隊(duì)推出「通用視覺編碼器」VideoPrism,在3600萬高質(zhì)量視頻字幕對和5.82億個視頻剪輯的數(shù)據(jù)集上完成了訓(xùn)練,性能刷新30項(xiàng)SOTA。AI視頻模型Sora爆火之后,Meta、谷歌等大廠紛紛下場做研究,追趕OpenAI的步伐。盡管對比基線已經(jīng)在K400上取得了有競爭力的結(jié)果,但所提出的全局蒸餾和token洗牌進(jìn)一步提高了準(zhǔn)確性。
【新智元導(dǎo)讀】近日,北大、斯坦福、以及PikaLabs發(fā)布了新的開源文生圖框架,利用多模態(tài)LLM的能力成功解決文生圖兩大難題,表現(xiàn)超越SDXL和DALL·E3近日,北大、斯坦福、以及爆火的PikaLabs聯(lián)合發(fā)表了一項(xiàng)研究,將大模型文生圖的能力提升到了新的高度。論文地址:https://arxiv.org/pdf/2401.11708.pdf代碼地址:https://github.com/YangLing0818/RPG-DiffusionMaster論文作者提出了一個全新的免訓(xùn)練文本?
劃重點(diǎn):1.🌐**RAGatouille簡介:**一款旨在簡化最先進(jìn)檢索方法集成的機(jī)器學(xué)習(xí)庫,專注于使ColBERT更易用。2.🧩**關(guān)鍵功能:**提供強(qiáng)大的默認(rèn)設(shè)置和可定制的模塊,使ColBERT模型的訓(xùn)練和微調(diào)過程更易于訪問。RAGatouille旨在使先進(jìn)的檢索方法更易于訪問,彌合研究發(fā)現(xiàn)與信息檢索實(shí)際應(yīng)用之間的差距。
過去一年擴(kuò)散模型風(fēng)頭正勁,徹底改變了文生圖領(lǐng)域!那么,擴(kuò)散模型能否處理視覺感知任務(wù)?字節(jié)跳動和復(fù)旦大學(xué)技術(shù)團(tuán)隊(duì)在最新研究中提出了一個簡單有效的方案。擴(kuò)散模型在生成高清晰度圖像方面顯示出了卓越的能力,這一成就得益于其在大規(guī)模圖像-文本對上的預(yù)訓(xùn)練。隨著技術(shù)的進(jìn)步,這些方法可能會進(jìn)一步完善。
只需兩分鐘,玩轉(zhuǎn)圖片轉(zhuǎn)3D!還是高紋理質(zhì)量、多視角高一致性的那種。不管是什么物種,輸入時的單視圖圖像還是這樣?jì)饍旱?兩分鐘后,3D版大功告成:△上,Repaint123;下,Repaint123新方法名為Repaint123,核心思想是將2D擴(kuò)散模型的強(qiáng)大圖像生成能力與再繪策略的紋理對齊能力相結(jié)合,來生成高質(zhì)量、多視角一致的圖像。作者也對論文使用的每個模塊的有效性以及視角轉(zhuǎn)動增量進(jìn)行?
清華大學(xué)劉永進(jìn)教授課題組在文生3D領(lǐng)域取得了重大突破,提出的TICD模型在SOTA水平上取得了顯著的成績。本文將介紹TICD的創(chuàng)新之處以及其在3D圖形生成領(lǐng)域的應(yīng)用。TICD有望在更廣泛的應(yīng)用中發(fā)揮重要作用,為文本生成3D領(lǐng)域的發(fā)展提供新的思路與可能性。
最近,來自北京大學(xué)等機(jī)構(gòu)研究者提出了一種全新視覺語言大模型——Video-LLaVA,使得LLM能夠同時接收圖片和視頻為輸入。Video-LlaVA在下游任務(wù)中取得了卓越的性能,并在圖片、視頻的13個基準(zhǔn)上達(dá)到先進(jìn)的性能。這些結(jié)果證明了聯(lián)合圖片和視頻一起訓(xùn)練能夠促進(jìn)LLM理解視覺表示。