MiniGPT-5：一種基于生成vokens 的交錯(cuò)視覺和語言生成模型

2023-10-24 09:45 · 稿源：站長(zhǎng)之家

要點(diǎn):
1. MiniGPT-5是一種基于生成 vokens 的交錯(cuò)視覺和語言生成模型，通過整合大型語言模型和穩(wěn)定擴(kuò)散技術(shù)，實(shí)現(xiàn)了文本和圖像的協(xié)調(diào)輸出。
2. MiniGPT-5框架采用兩階段訓(xùn)練策略，無需圖像描述的多模態(tài)數(shù)據(jù)生成和無分類器的引導(dǎo)系統(tǒng)，有效提高了模型的性能和效率。
3. MiniGPT-5模型在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出強(qiáng)大的性能，優(yōu)于基線模型 Divter，并在人工評(píng)估中表現(xiàn)出與甚至超過 VIST 數(shù)據(jù)集上的人類評(píng)估結(jié)果的能力。

MiniGPT-5是一種交錯(cuò)視覺和語言生成模型，通過整合大型語言模型和穩(wěn)定擴(kuò)散技術(shù)，實(shí)現(xiàn)了文本和圖像的協(xié)調(diào)輸出。該模型采用兩階段訓(xùn)練策略，首先進(jìn)行無圖像描述的多模態(tài)數(shù)據(jù)生成，然后利用無分類器的引導(dǎo)系統(tǒng)進(jìn)一步提升生成 vokens 的效果。MiniGPT-5框架還采用參數(shù)高效微調(diào)技術(shù)，以優(yōu)化模型的訓(xùn)練效率和內(nèi)存需求。

MiniGPT-5的訓(xùn)練策略分為兩個(gè)階段:單模態(tài)對(duì)齊階段和多模態(tài)學(xué)習(xí)階段。在單模態(tài)對(duì)齊階段，模型通過將圖像描述作為輸入，生成與描述相對(duì)應(yīng)的生成 vokens，從而實(shí)現(xiàn)圖像的生成。在多模態(tài)學(xué)習(xí)階段，MiniGPT-5通過使用 VIST 等數(shù)據(jù)集，將生成 vokens 與文本進(jìn)行交叉生成，以實(shí)現(xiàn)文本和圖像的協(xié)調(diào)輸出。

MiniGPT-5在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)出強(qiáng)大的性能。與基線模型 Divter 相比，MiniGPT-5在生成相關(guān)圖像和文本方面表現(xiàn)更好。此外，MiniGPT-5還通過人工評(píng)估驗(yàn)證了其在 VIST 數(shù)據(jù)集上的性能優(yōu)越性。從語言連貫性、圖像質(zhì)量和多模態(tài)一致性等多個(gè)維度評(píng)估，MiniGPT-5在多模態(tài)生成任務(wù)上取得了出色的成績(jī)。

MiniGPT-5的創(chuàng)新之處在于引入了生成 vokens 的概念，通過整合語言模型和圖像生成模型，實(shí)現(xiàn)了文本和圖像的無縫銜接。該模型還采用了先進(jìn)的訓(xùn)練技術(shù)，包括參數(shù)高效微調(diào)和穩(wěn)定擴(kuò)散技術(shù)，以提高生成結(jié)果的質(zhì)量和準(zhǔn)確性。MiniGPT-5的性能和效率在多模態(tài)內(nèi)容生成領(lǐng)域樹立了新的標(biāo)桿，并解決了以往模型在同樣問題上面臨的挑戰(zhàn)。

綜上所述，MiniGPT-5是一種創(chuàng)新的交錯(cuò)視覺和語言生成模型，通過引入生成 vokens 的概念和先進(jìn)的訓(xùn)練策略，實(shí)現(xiàn)了文本和圖像的協(xié)調(diào)輸出。該模型在多項(xiàng)基準(zhǔn)測(cè)試和人工評(píng)估中展現(xiàn)出出色的性能，為多模態(tài)內(nèi)容生成領(lǐng)域帶來了新的突破。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

MiniGPT-5

Sora之后，視頻生成模型的中國牌局

Sora，自2月16日OpenAI發(fā)布后一直被吐槽是“技術(shù)期貨”，終于在12月10日，正式版Sora露面了，可以生成最高1080p分辨率、最長(zhǎng)20秒的視頻。OpenAICEO奧特曼稱，Sora正式版是視頻生成領(lǐng)域的GPT-1時(shí)刻。大模型的牌局，國內(nèi)企業(yè)正在找到自己的節(jié)奏感。

?視頻生成 ?OpenAI ?AI技術(shù)
OpenAI正式推出AI視頻生成模型Sora：ChatGPT訂閱用戶免費(fèi)用

在首次公布10個(gè)月之后，OpenAI宣布正式向用戶開放人工智能視頻生成模型版本Sora，該系統(tǒng)可以根據(jù)文本提示生成逼真的視頻。OpenAI還推出了Sora的新版本SoraTurbo，稱較2月預(yù)覽的版本速度顯著加快，可以生成最長(zhǎng)達(dá)20秒的視頻，并且可以提供這些視頻的多種變體。OpenAI表示，正在針對(duì)不同類型的用戶制定量身定制的價(jià)格方案，計(jì)劃于明年年初推出。

?人工智能 ?視頻生成 ?OpenAI
薦AI日?qǐng)?bào)：支付寶推AI創(chuàng)意生成平臺(tái)；谷歌王炸推理模型Gemini2.0 Flash Thinking；Runway支持插入中間幀；OpenAI準(zhǔn)備o3推理模型

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、谷歌發(fā)布王炸推理模型Gemini2.0FlashThinking，挑戰(zhàn)OpenAIo1谷歌近期推出的Gemini2.0FlashThinking模型在多模態(tài)推理領(lǐng)域展現(xiàn)出強(qiáng)大的能力，支持32，000個(gè)輸入標(biāo)記和8，000個(gè)輸出標(biāo)記，極大提升了處理復(fù)雜問題的效率。與前代產(chǎn)品相比，F(xiàn)alcon3的訓(xùn)練規(guī)模翻倍，展現(xiàn)出強(qiáng)勁的競(jìng)爭(zhēng)力，尤其是在與其他主流開源模型的基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。

?AI技術(shù) ?人工智能 ?機(jī)器學(xué)習(xí)
英偉達(dá)展示AI模型Fugatto：可修改并生成新聲音

據(jù)報(bào)道，英偉達(dá)展示了一種用于生成音樂和音頻的新型人工智能模型Fugatto，它可以修改聲音并生成新的聲音。Fugatto的獨(dú)特魅力在于其超越傳統(tǒng)的人工智能界限，不僅能夠接收并分析現(xiàn)有音頻素材能對(duì)其進(jìn)行靈活修改。行業(yè)內(nèi)的其他巨頭如OpenAI與Meta，對(duì)于何時(shí)會(huì)推出能夠生成音頻或視頻的先進(jìn)模型，同樣保持著神秘的態(tài)度，尚未透露具體的時(shí)間表。

?人工智能 ?音頻生成 ?英偉達(dá)
力壓Sora！谷歌第二代AI視頻生成模型Veo 2發(fā)布：分辨率可達(dá)4K

據(jù)報(bào)道，谷歌發(fā)布了最新的AI視頻生成模型Veo2。Veo2模型能夠生成最高4K分辨率、時(shí)長(zhǎng)達(dá)到2分鐘的視頻片段，相較于OpenAI的Sora模型，分辨率提升了4倍，視頻時(shí)長(zhǎng)增加了6倍。除了Veo2之外，Google這波還推出了改進(jìn)版的AI繪圖Imagen3模型，生圖細(xì)節(jié)更好、光照更豐富、干擾更少。

?谷歌 ?AI視頻生成 ?Veo
谷歌史上最強(qiáng)大模型！Gemini 2.0正式發(fā)布

今天凌晨，谷歌正式發(fā)布了為新智能體時(shí)代構(gòu)建的下一代模型Gemini2.0。這是谷歌迄今為止功能最強(qiáng)的AI模型，帶來了更強(qiáng)的性能、更多的多模態(tài)表現(xiàn)和新的原生工具應(yīng)用。Gemini2.0還會(huì)擴(kuò)展到更多Google產(chǎn)品中。

?谷歌 ?Gemini ?2.0
薦AI日?qǐng)?bào)：階躍星辰內(nèi)測(cè)視頻大模型Step-Video；即夢(mèng)AI圖片2.1模型支持生成文字；騰訊發(fā)布混元視頻生成大模型

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、階躍星辰視頻生成大模型Step-Video開啟內(nèi)測(cè)可在躍問視頻申請(qǐng)階躍星辰的Step-Video模型正式開啟內(nèi)測(cè)，用戶可以通過躍問視頻官網(wǎng)申請(qǐng)資格。用戶可在最新版本的WPSOffice中輕松找到?

?人工智能 ?視頻生成 ?技術(shù)趨勢(shì)
薦視頻生成大模型賽道，只是看上去擁擠

2024年最后一個(gè)月，國產(chǎn)大模型落地應(yīng)用突然加速。尤其視頻生成模型，就像密集射出子彈后的槍管，熱得發(fā)燙。AI一天，人間一年。

?國產(chǎn)大模型 ?視頻生成模型 ?AI導(dǎo)演
薦AI日?qǐng)?bào)：蘋果全家桶接入ChatGPT；百度文庫上線專業(yè)PPT生成；谷歌Gemini 2.0版來襲；ChatGPT全球宕機(jī)已修復(fù)

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、蘋果發(fā)布iOS18.2正式版:Siri接入ChatGPT蘋果公司正式發(fā)布了iOS18.2、iPadOS18.2和macOSSequoia15.2，特別是iOS18.2引入的新功能AppleIntelligence備受關(guān)注。廣州警方成功偵破了一個(gè)犯罪團(tuán)伙，抓獲6名嫌疑人，該團(tuán)伙通過注冊(cè)自媒體賬號(hào)和使用AI工具批量發(fā)布虛假信息，造成了嚴(yán)重的網(wǎng)絡(luò)污染。

?人工智能 ?蘋果產(chǎn)品 ?iOS更新
薦AI日?qǐng)?bào)：字節(jié)重磅推出豆包視覺理解模型；AI“魔改”寵物跳舞爆火；OpenAI開放滿血o1模型API；即夢(mèng)AI上線海報(bào)生成功能

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。9、英偉達(dá)發(fā)布生成式AI超級(jí)電腦:僅249美元性能提升1.7倍英偉達(dá)推出的JetsonOrinNanoSuper是一款面向開發(fā)者的生成式人工智能超級(jí)電腦，定價(jià)249美元，性能提升顯著，適用于多種AI應(yīng)用場(chǎng)景。此次股票出售不僅激勵(lì)了員工，也加強(qiáng)了公司與投資者之間的信任關(guān)系，顯示出OpenAI作為創(chuàng)新型公司的潛力與價(jià)值。

?人工智能 ?視覺推理 ?大模型

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

MiniGPT-5：一種基于生成vokens 的交錯(cuò)視覺和語言生成模型

Sora之后，視頻生成模型的中國牌局

OpenAI正式推出AI視頻生成模型Sora：ChatGPT訂閱用戶免費(fèi)用

薦AI日?qǐng)?bào)：支付寶推AI創(chuàng)意生成平臺(tái)；谷歌王炸推理模型Gemini2.0 Flash Thinking；Runway支持插入中間幀；OpenAI準(zhǔn)備o3推理模型

英偉達(dá)展示AI模型Fugatto：可修改并生成新聲音

力壓Sora！谷歌第二代AI視頻生成模型Veo 2發(fā)布：分辨率可達(dá)4K

谷歌史上最強(qiáng)大模型！Gemini 2.0正式發(fā)布

薦AI日?qǐng)?bào)：階躍星辰內(nèi)測(cè)視頻大模型Step-Video；即夢(mèng)AI圖片2.1模型支持生成文字；騰訊發(fā)布混元視頻生成大模型

薦視頻生成大模型賽道，只是看上去擁擠

薦AI日?qǐng)?bào)：蘋果全家桶接入ChatGPT；百度文庫上線專業(yè)PPT生成；谷歌Gemini 2.0版來襲；ChatGPT全球宕機(jī)已修復(fù)

薦AI日?qǐng)?bào)：字節(jié)重磅推出豆包視覺理解模型；AI“魔改”寵物跳舞爆火；OpenAI開放滿血o1模型API；即夢(mèng)AI上線海報(bào)生成功能

熱文

吳柳芳賬號(hào)再次被禁粉絲從600萬被清理至4萬抖音：低俗內(nèi)容吸

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

劉強(qiáng)東提前發(fā)年終獎(jiǎng) 絕大多數(shù)員工可獲5到8個(gè)月年終獎(jiǎng)

肯德基中國漲價(jià) 官方回應(yīng)：運(yùn)營成本變化導(dǎo)致

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

李斌回應(yīng)螢火蟲外觀設(shè)計(jì)：看過實(shí)車的人都喜歡這個(gè)設(shè)計(jì)

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號(hào)規(guī)避

小米SU7最新版本OTA推送：正式接入VLM視覺語言大模型

沒網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無網(wǎng)通12月底升級(jí)6km級(jí)通話范圍

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛上我

吳柳芳賬號(hào)再次被禁粉絲從600萬被清理至4萬抖音：低俗內(nèi)容吸

小紅書封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

劉強(qiáng)東提前發(fā)年終獎(jiǎng) 絕大多數(shù)員工可獲5到8個(gè)月年終獎(jiǎng)

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

微信朋友圈崩了上熱搜騰訊客服：請(qǐng)嘗試這幾種方法

未成年人成部分博主流量密碼抖音治理涉“網(wǎng)紅兒童”違規(guī)內(nèi)容

肯德基中國漲價(jià) 官方回應(yīng)：運(yùn)營成本變化導(dǎo)致

極越員工善后方案已出爐：?jiǎn)T工獲“N+1”賠償由百度吉利出資

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒有上市計(jì)劃

站長(zhǎng)商機(jī)