幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關鍵詞  > CoDi-2最新資訊  > 正文

CoDi-2:改變交織多模態(tài)指令處理和多模態(tài)輸出生成領域

2023-12-07 11:57 · 稿源:站長之家

**劃重點:**

1. ?? **CoDi-2介紹**:來自加州大學伯克利、Microsoft Azure AI、Zoom和UNC-Chapel Hill的研究人員共同開發(fā)的CoDi-2多模態(tài)大語言模型,致力于解決生成和理解復雜多模態(tài)指令的問題,在主題驅動的圖像生成、視覺轉換和音頻編輯任務方面取得了顯著突破。

2. ?? **模型特性**:CoDi-2在主題驅動的圖像生成和音頻編輯等任務上超越了其前身CoDi,并采用了包括音頻和視覺輸入的編碼器和解碼器的模型架構。其訓練過程中融合了來自擴散模型的像素損失以及令牌損失,展現(xiàn)了在風格適應和主題驅動生成等任務中顯著的零樣本和少樣本能力。

3. ?? **多模態(tài)生成的挑戰(zhàn)**:CoDi-2通過利用語言模型(LLM)在編碼和生成過程中將模態(tài)與語言對齊,成功應對多模態(tài)生成中的零樣本精細控制、模態(tài)交織指令跟隨和多輪多模態(tài)對話等挑戰(zhàn),展現(xiàn)出卓越的性能和泛化能力。

站長之家(ChinaZ.com)12月7日 消息:研究人員合作開發(fā)的CoDi-2多模態(tài)大語言模型標志著在處理復雜多模態(tài)指令生成和理解方面的重大突破。該模型集成了加州大學伯克利、Microsoft Azure AI、Zoom和UNC-Chapel Hill的研究力量,致力于解決主題驅動的圖像生成、視覺轉換和音頻編輯等領域的難題。

image.png

CoDi-2不僅擴展了其前身CoDi的功能,而且在主題驅動的圖像生成和音頻編輯等任務中表現(xiàn)卓越。其模型架構包括專門用于音頻和視覺輸入的編碼器和解碼器。在訓練過程中,采用了來自擴散模型的像素損失和令牌損失。CoDi-2在風格適應和主題驅動生成等任務中展現(xiàn)出了顯著的零樣本和少樣本能力。

CoDi-2著重解決了多模態(tài)生成中的挑戰(zhàn),強調零樣本精細控制、模態(tài)交織指令跟隨和多輪多模態(tài)對話。通過將LLM作為其核心,CoDi-2在編碼和生成過程中將各種模態(tài)與語言相對應,使其能夠理解復雜指令并生成連貫的多模態(tài)輸出。

模型架構中集成了音頻和視覺輸入的編碼器和解碼器,經過對多樣生成數(shù)據集的訓練,CoDi-2在訓練階段利用了來自擴散模型的像素損失和令牌損失。其在零樣本能力方面表現(xiàn)出色,不僅在主題驅動的圖像生成、視覺轉換和音頻編輯方面超越了先前的模型,還在新的未見任務中展現(xiàn)了競爭性的性能和泛化能力。

CoDi-2在多模態(tài)生成中展示出了廣泛的零樣本能力,在上下文學習、推理和任意模態(tài)生成的多輪互動對話中表現(xiàn)卓越。評估結果顯示了其在零樣本性能和對新任務的強大泛化能力。在音頻處理任務中,CoDi-2的表現(xiàn)卓越,通過在所有指標中獲得最低分數(shù),實現(xiàn)了在音軌中添加、刪除和替換元素方面的卓越性能。這凸顯了在上下文年齡、概念學習、編輯和精細控制方面推動高保真多模態(tài)生成的重要性。

CoDi-2是一種先進的AI系統(tǒng),在包括遵循復雜指令、上下文學習、推理、聊天和不同輸入輸出模式的各種任務中表現(xiàn)出色。其適應不同風格、基于不同主題的內容生成以及在音頻處理方面的熟練操作,使其成為多模態(tài)基礎建模領域的重大突破。CoDi-2代表了對創(chuàng)建一個全面處理多任務系統(tǒng)的深入探索,即使是尚未經過訓練的任務也能輕松處理。

CoDi-2未來的方向計劃通過優(yōu)化上下文學習、拓展對話能力和支持額外的模態(tài)來增強其多模態(tài)生成能力。它旨在通過使用擴散模型等技術來提高圖像和音頻的保真度。未來的研究還可能涉及評估和比較CoDi-2與其他模型,以了解其優(yōu)勢和局限性。

項目網址:https://codi-2.github.io/

https://github.com/microsoft/i-Code/tree/main/CoDi-2

鏈接網址:https://arxiv.org/abs/2311.18775

舉報

  • 相關推薦
  • 智象多模態(tài)生成大模型3.0發(fā)布 離幻覺更遠與離落地更近

    12月28日,智象未來科技有限公司在安徽人工智能產業(yè)先導區(qū)啟動儀式中,正式發(fā)布智象多模態(tài)生成大模型3.0版。啟動儀式上,智象未來創(chuàng)始人兼首席執(zhí)行官梅濤總結了2024年人工領域技術發(fā)展的五個標志性事件,分別是以Sora為代表的視覺生成物理世界模擬器、以ChatGPT4o為代表的多模態(tài)模型、以GPT-o1為代表的從預訓練到后訓練推理優(yōu)化、多模態(tài)大模型賦能具身智能實現(xiàn)軟硬件結合,以及人工智能學者榮獲諾貝爾化學獎表明AI賦能科研范式變革。本次活動現(xiàn)場,智象未來與人民網、上海電影集團、彩訊科技、捷成華視網聚、安徽聯(lián)通、中國移動咪咕音樂等12家生態(tài)伙伴企業(yè)代表簽約,共同打造集技術研發(fā)、產業(yè)化應用、市場推廣于一體的生態(tài)體系。

  • 成都匯陽投資關于Sora 正式上線,多模態(tài)模型的里程碑

    事件12月10日,OpenAl正式上線Sora,并向包括美國在內的多數(shù)國家用戶開放,用戶可在OpenAI官網上體驗Sora。Sora被包含在ChatGPTPlus和ChatGPTPro的會員訂閱方案中,用戶無需額外付費。股市有風險,投資需謹慎。

  • 谷歌“狙擊”O(jiān)penAI,發(fā)布新一代大模型,主打Agent+多模態(tài)

    繼量子芯片之后,谷歌又來搶“OpenAI雙12直播”的流量了!就在剛剛,谷歌新一代大模型Gemini2.0突然登場,再次由谷歌CEO皮猜親自官宣。新一代模型專為AIAgent打造,谷歌表示目前已經將2.0版本提供給了一些開發(fā)者內測,正在迅速將其集成在Gemini和搜索等產品線中。從OpenAI跳槽到谷歌的LoganKilpatrick表示,他們在GoogleAIStudio中創(chuàng)建了一個全新體驗,展示了Gemini2.0視頻理解、原生工具?

  • 亞馬遜祭出地表最強全家桶,多模態(tài)Nova卻敗給Claude 3.5!

    【新智元導讀】圍剿英偉達,數(shù)十萬顆自研二代芯片超算在建!亞馬遜祭出地表最強全家桶,多模態(tài)Nova擊敗GPT-4o。亞馬遜推出了號稱最強大的多模態(tài)模型Nova系列。IDC在2023年12月發(fā)布的最新研究報告顯示,英偉達當前在AI芯片市場中占據著約95%的主導地位。

  • AI日報:OpenAI重磅上線Sora;智譜AI免費多模態(tài)模型GLM-4V-Flash;騰訊云打造AI代碼助手

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、OpenAI正式上線Sora,ChatGPTPro用戶可無限生成、最長20秒OpenAI在"ship-mas"系列活動中發(fā)布了SoraTurbo視頻生成AI,支持生成20秒1080p視頻,用戶可通過文本、圖片或視頻進行創(chuàng)作,具有多種風格和剪輯功能。See3D已開源,支持多種3D創(chuàng)作應用。

  • AI日報:阿里通義開源多模態(tài)推理模型QVQ-72B;OpenAI考慮自研人形機器人;QQ音樂上線首個AI大模型音效

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、阿里發(fā)布多模態(tài)推理模型QVQ-72B!視覺、語言能力雙提升阿里巴巴最近推出的QVQ-72B多模態(tài)推理模型在語言和視覺能力上實現(xiàn)了顯著提升,能夠處理復雜的推理和分析任務,尤其在多步推理和數(shù)學推理方面表現(xiàn)突出。盡管o1-preview在某些方面表現(xiàn)優(yōu)秀,但在實際應用中仍面臨高成本和不切實際的測試建議等問題。

  • 中國電信發(fā)布全自研視頻生成大模型 完成全模態(tài)體系構建

    12月3日,在中國電信“2024數(shù)字科技生態(tài)大會”期間,首屆“TeleAI開發(fā)者大會”在廣州舉辦。TeleAI發(fā)布視頻生成大模型、視覺大模型產用一體化平臺、具身智能、智傳網等一系列創(chuàng)新技術、產品及科研成果,并發(fā)布開發(fā)者產業(yè)聯(lián)盟計劃。展出了星辰軟件工廠、星辰慧記、星辰智能體產品、中國電信家庭小管家、星辰大模型一體機等一系列智能產品,讓現(xiàn)場觀眾真實感受未來以來,AI就在每個人的身邊。

  • 2024 加密市場雙引擎:Memecoin 爆發(fā)與 RWA 崛起

    2024年,加密市場在CoinGecko發(fā)布的年度報告中呈現(xiàn)出全新的敘事格局。現(xiàn)實世界資產和迷因幣成為最耀眼的兩大明星,分別占據8.64%和14.36%的市場份額。Matrixport也將繼續(xù)通過產品創(chuàng)新和技術支持,為全球投資者提供更高效、更安全的投資體驗。

  • 249元 小米發(fā)布120W GaN四口充電器套裝:任意單C口最大功率輸出

    日前,小米120WGaN四口充電器套裝發(fā)布,已在小米商城、京東等電商平臺上架開售,售價249元,套裝內含一根1.5米雙USB-C數(shù)據線。該充電器采用1A3C接口設計,即1個USB-A接口、3個USB-C接口。小米120WGaN四口充電器內置智能溫控芯片,實時動態(tài)監(jiān)測工作溫度,外殼采用UL94-V0級防火耐高溫材料,支持過壓、過溫、過流、短路、靜電、欠壓等十重防護。

  • 榮耀200系列/Magic Vs2/Magic4系列開啟MagicOS 9.0公測

    今天榮耀宣布,榮耀MagicVs2、榮耀Magic4系列、榮耀200系列開啟MagicOS9.0公測,公測活動在我的榮耀APP報名參與。報名入口及方法:請在手機上打開我的榮耀”APP-俱樂部-MagicOS9.0-升級嘗鮮-公測申請,然后根據提示進行報名升級即可。值得注意的是,MagicOS9.0加持平臺級AI內核的大模型能力,推出全新自研的魔法大模型家族,涵蓋語言大模型、圖像大模型、語音大模型以及多模態(tài)大模型,在不同設備上實現(xiàn)靈活部署。