CoDi-2:改變交織多模態(tài)指令處理和多模態(tài)輸出生成領域

2023-12-07 11:57 · 稿源：站長之家

**劃重點:**
1. ?? **CoDi-2介紹**:來自加州大學伯克利、Microsoft Azure AI、Zoom和UNC-Chapel Hill的研究人員共同開發(fā)的CoDi-2多模態(tài)大語言模型，致力于解決生成和理解復雜多模態(tài)指令的問題，在主題驅動的圖像生成、視覺轉換和音頻編輯任務方面取得了顯著突破。
2. ?? **模型特性**:CoDi-2在主題驅動的圖像生成和音頻編輯等任務上超越了其前身CoDi，并采用了包括音頻和視覺輸入的編碼器和解碼器的模型架構。其訓練過程中融合了來自擴散模型的像素損失以及令牌損失，展現(xiàn)了在風格適應和主題驅動生成等任務中顯著的零樣本和少樣本能力。
3. ?? **多模態(tài)生成的挑戰(zhàn)**:CoDi-2通過利用語言模型（LLM）在編碼和生成過程中將模態(tài)與語言對齊，成功應對多模態(tài)生成中的零樣本精細控制、模態(tài)交織指令跟隨和多輪多模態(tài)對話等挑戰(zhàn)，展現(xiàn)出卓越的性能和泛化能力。

站長之家（ChinaZ.com）12月7日消息:研究人員合作開發(fā)的CoDi-2多模態(tài)大語言模型標志著在處理復雜多模態(tài)指令生成和理解方面的重大突破。該模型集成了加州大學伯克利、Microsoft Azure AI、Zoom和UNC-Chapel Hill的研究力量，致力于解決主題驅動的圖像生成、視覺轉換和音頻編輯等領域的難題。

CoDi-2不僅擴展了其前身CoDi的功能，而且在主題驅動的圖像生成和音頻編輯等任務中表現(xiàn)卓越。其模型架構包括專門用于音頻和視覺輸入的編碼器和解碼器。在訓練過程中，采用了來自擴散模型的像素損失和令牌損失。CoDi-2在風格適應和主題驅動生成等任務中展現(xiàn)出了顯著的零樣本和少樣本能力。

CoDi-2著重解決了多模態(tài)生成中的挑戰(zhàn)，強調零樣本精細控制、模態(tài)交織指令跟隨和多輪多模態(tài)對話。通過將LLM作為其核心，CoDi-2在編碼和生成過程中將各種模態(tài)與語言相對應，使其能夠理解復雜指令并生成連貫的多模態(tài)輸出。

模型架構中集成了音頻和視覺輸入的編碼器和解碼器，經過對多樣生成數(shù)據集的訓練，CoDi-2在訓練階段利用了來自擴散模型的像素損失和令牌損失。其在零樣本能力方面表現(xiàn)出色，不僅在主題驅動的圖像生成、視覺轉換和音頻編輯方面超越了先前的模型，還在新的未見任務中展現(xiàn)了競爭性的性能和泛化能力。

CoDi-2在多模態(tài)生成中展示出了廣泛的零樣本能力，在上下文學習、推理和任意模態(tài)生成的多輪互動對話中表現(xiàn)卓越。評估結果顯示了其在零樣本性能和對新任務的強大泛化能力。在音頻處理任務中，CoDi-2的表現(xiàn)卓越，通過在所有指標中獲得最低分數(shù)，實現(xiàn)了在音軌中添加、刪除和替換元素方面的卓越性能。這凸顯了在上下文年齡、概念學習、編輯和精細控制方面推動高保真多模態(tài)生成的重要性。

CoDi-2是一種先進的AI系統(tǒng)，在包括遵循復雜指令、上下文學習、推理、聊天和不同輸入輸出模式的各種任務中表現(xiàn)出色。其適應不同風格、基于不同主題的內容生成以及在音頻處理方面的熟練操作，使其成為多模態(tài)基礎建模領域的重大突破。CoDi-2代表了對創(chuàng)建一個全面處理多任務系統(tǒng)的深入探索，即使是尚未經過訓練的任務也能輕松處理。

CoDi-2未來的方向計劃通過優(yōu)化上下文學習、拓展對話能力和支持額外的模態(tài)來增強其多模態(tài)生成能力。它旨在通過使用擴散模型等技術來提高圖像和音頻的保真度。未來的研究還可能涉及評估和比較CoDi-2與其他模型，以了解其優(yōu)勢和局限性。

項目網址:https://codi-2.github.io/

https://github.com/microsoft/i-Code/tree/main/CoDi-2

鏈接網址:https://arxiv.org/abs/2311.18775

（舉報）

相關推薦

關鍵詞：

CoDi-2

智象多模態(tài)生成大模型3.0發(fā)布離幻覺更遠與離落地更近

12月28日，智象未來科技有限公司在安徽人工智能產業(yè)先導區(qū)啟動儀式中，正式發(fā)布智象多模態(tài)生成大模型3.0版。啟動儀式上，智象未來創(chuàng)始人兼首席執(zhí)行官梅濤總結了2024年人工領域技術發(fā)展的五個標志性事件，分別是以Sora為代表的視覺生成物理世界模擬器、以ChatGPT4o為代表的多模態(tài)模型、以GPT-o1為代表的從預訓練到后訓練推理優(yōu)化、多模態(tài)大模型賦能具身智能實現(xiàn)軟硬件結合，以及人工智能學者榮獲諾貝爾化學獎表明AI賦能科研范式變革。本次活動現(xiàn)場，智象未來與人民網、上海電影集團、彩訊科技、捷成華視網聚、安徽聯(lián)通、中國移動咪咕音樂等12家生態(tài)伙伴企業(yè)代表簽約，共同打造集技術研發(fā)、產業(yè)化應用、市場推廣于一體的生態(tài)體系。

?人工智能 ?多模態(tài)大模型 ?技術發(fā)展
成都匯陽投資關于Sora 正式上線，多模態(tài)模型的里程碑

事件12月10日，OpenAl正式上線Sora，并向包括美國在內的多數(shù)國家用戶開放，用戶可在OpenAI官網上體驗Sora。Sora被包含在ChatGPTPlus和ChatGPTPro的會員訂閱方案中，用戶無需額外付費。股市有風險，投資需謹慎。

?OpenAI ?Sora ?視頻生成
薦谷歌“狙擊”O(jiān)penAI，發(fā)布新一代大模型，主打Agent+多模態(tài)

繼量子芯片之后，谷歌又來搶“OpenAI雙12直播”的流量了!就在剛剛，谷歌新一代大模型Gemini2.0突然登場，再次由谷歌CEO皮猜親自官宣。新一代模型專為AIAgent打造，谷歌表示目前已經將2.0版本提供給了一些開發(fā)者內測，正在迅速將其集成在Gemini和搜索等產品線中。從OpenAI跳槽到谷歌的LoganKilpatrick表示，他們在GoogleAIStudio中創(chuàng)建了一個全新體驗，展示了Gemini2.0視頻理解、原生工具?

?谷歌 ?Gemini ?2.0
薦亞馬遜祭出地表最強全家桶，多模態(tài)Nova卻敗給Claude 3.5！

【新智元導讀】圍剿英偉達，數(shù)十萬顆自研二代芯片超算在建!亞馬遜祭出地表最強全家桶，多模態(tài)Nova擊敗GPT-4o。亞馬遜推出了號稱最強大的多模態(tài)模型Nova系列。IDC在2023年12月發(fā)布的最新研究報告顯示，英偉達當前在AI芯片市場中占據著約95%的主導地位。

?Nova
薦AI日報：OpenAI重磅上線Sora；智譜AI免費多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、OpenAI正式上線Sora，ChatGPTPro用戶可無限生成、最長20秒OpenAI在"ship-mas"系列活動中發(fā)布了SoraTurbo視頻生成AI，支持生成20秒1080p視頻，用戶可通過文本、圖片或視頻進行創(chuàng)作，具有多種風格和剪輯功能。See3D已開源，支持多種3D創(chuàng)作應用。
薦AI日報：阿里通義開源多模態(tài)推理模型QVQ-72B；OpenAI考慮自研人形機器人；QQ音樂上線首個AI大模型音效

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、阿里發(fā)布多模態(tài)推理模型QVQ-72B!視覺、語言能力雙提升阿里巴巴最近推出的QVQ-72B多模態(tài)推理模型在語言和視覺能力上實現(xiàn)了顯著提升，能夠處理復雜的推理和分析任務，尤其在多步推理和數(shù)學推理方面表現(xiàn)突出。盡管o1-preview在某些方面表現(xiàn)優(yōu)秀，但在實際應用中仍面臨高成本和不切實際的測試建議等問題。

?人工智能 ?多模態(tài)推理 ?阿里巴巴
中國電信發(fā)布全自研視頻生成大模型完成全模態(tài)體系構建

12月3日，在中國電信“2024數(shù)字科技生態(tài)大會”期間，首屆“TeleAI開發(fā)者大會”在廣州舉辦。TeleAI發(fā)布視頻生成大模型、視覺大模型產用一體化平臺、具身智能、智傳網等一系列創(chuàng)新技術、產品及科研成果，并發(fā)布開發(fā)者產業(yè)聯(lián)盟計劃。展出了星辰軟件工廠、星辰慧記、星辰智能體產品、中國電信家庭小管家、星辰大模型一體機等一系列智能產品，讓現(xiàn)場觀眾真實感受未來以來，AI就在每個人的身邊。

?TeleAI大模型 ?數(shù)字科技生態(tài)大會 ?人工智能發(fā)展
2024 加密市場雙引擎：Memecoin 爆發(fā)與 RWA 崛起

2024年，加密市場在CoinGecko發(fā)布的年度報告中呈現(xiàn)出全新的敘事格局。現(xiàn)實世界資產和迷因幣成為最耀眼的兩大明星，分別占據8.64%和14.36%的市場份額。Matrixport也將繼續(xù)通過產品創(chuàng)新和技術支持，為全球投資者提供更高效、更安全的投資體驗。

?加密市場 ?CoinGecko ?現(xiàn)實世界資產
249元小米發(fā)布120W GaN四口充電器套裝：任意單C口最大功率輸出

日前，小米120WGaN四口充電器套裝發(fā)布，已在小米商城、京東等電商平臺上架開售，售價249元，套裝內含一根1.5米雙USB-C數(shù)據線。該充電器采用1A3C接口設計，即1個USB-A接口、3個USB-C接口。小米120WGaN四口充電器內置智能溫控芯片，實時動態(tài)監(jiān)測工作溫度，外殼采用UL94-V0級防火耐高溫材料，支持過壓、過溫、過流、短路、靜電、欠壓等十重防護。

?小米 ?充電器 ?GaN技術
榮耀200系列/Magic Vs2/Magic4系列開啟MagicOS 9.0公測

今天榮耀宣布，榮耀MagicVs2、榮耀Magic4系列、榮耀200系列開啟MagicOS9.0公測，公測活動在我的榮耀APP報名參與。報名入口及方法：請在手機上打開我的榮耀”APP-俱樂部-MagicOS9.0-升級嘗鮮-公測申請，然后根據提示進行報名升級即可。值得注意的是，MagicOS9.0加持平臺級AI內核的大模型能力，推出全新自研的魔法大模型家族，涵蓋語言大模型、圖像大模型、語音大模型以及多模態(tài)大模型，在不同設備上實現(xiàn)靈活部署。

?榮耀Magic ?Vs2 ?MagicOS

熱文

3 天
7天

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

CoDi-2:改變交織多模態(tài)指令處理和多模態(tài)輸出生成領域

智象多模態(tài)生成大模型3.0發(fā)布離幻覺更遠與離落地更近

成都匯陽投資關于Sora 正式上線，多模態(tài)模型的里程碑

薦谷歌“狙擊”O(jiān)penAI，發(fā)布新一代大模型，主打Agent+多模態(tài)

薦亞馬遜祭出地表最強全家桶，多模態(tài)Nova卻敗給Claude 3.5！

薦AI日報：OpenAI重磅上線Sora；智譜AI免費多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

薦AI日報：阿里通義開源多模態(tài)推理模型QVQ-72B；OpenAI考慮自研人形機器人；QQ音樂上線首個AI大模型音效

中國電信發(fā)布全自研視頻生成大模型完成全模態(tài)體系構建

2024 加密市場雙引擎：Memecoin 爆發(fā)與 RWA 崛起

249元小米發(fā)布120W GaN四口充電器套裝：任意單C口最大功率輸出

榮耀200系列/Magic Vs2/Magic4系列開啟MagicOS 9.0公測

熱文

雷軍辟謠只招聘35歲以下員工：僅針對未來之星項目

雷軍曬健身房照片：此前設定100次健身打卡目標

阿里巴巴AI“生意管家”: 400萬商家的秘密武器

董明珠曾喊話雷軍給股民分多少錢！格力：擬分紅超55億

俞敏洪稱東方甄選是火藥桶：未來一定會更加美好

蘋果官網突然降價客服回應能否退差價

張朝陽說量子力學不是玄學：是一門嚴謹?shù)奈锢韺W科

盧偉冰加入小米6周年：未來風景無限美好

蘋果市值一夜蒸發(fā)7248億此前官網已開啟降價活動

曝雷軍挖了個95后天才少女“AI小蘿莉”：開出千萬年薪惡補大模

京東科技宣布落實20薪：計劃到2025年實現(xiàn)

AI 的暗面：永遠不要對人工智能聊天機器人說的 10 件事

免費寫真人人都能用！騰訊元寶AI跨年美照上線：大片一鍵生成

雷軍感謝網友祝他年入百萬：愿大家夢想成真今晚8點跨年直播

AI教父辛頓發(fā)聲：30年內AI致人類滅亡幾率達10%-20%

出圈就好！盤點2024年國內AI大模型產品的那些破圈姿勢

雷軍辟謠只招聘35歲以下員工：僅針對未來之星項目

雷軍曬健身房照片：此前設定100次健身打卡目標

2025 年人工智能的四大預測：從瓶頸到突破，下一步是什么？

站長商機