站長之家(ChinaZ.com)4月18日 消息:MiniGPT-4是一個具有圖像理解能力的開源聊天機器人,基于 Vicuna-13B LLM 和 BLIP-2視覺語言模型。
研究團隊首先在四張 Nvidia A100顯卡上用大約500萬對圖像文本對 MiniGPT-4進行了十個小時的訓(xùn)練。在第二步中,該模型使用 MiniGPT-4和ChatGPT之間的交互生成的3,500個高質(zhì)量文本圖像對進行了改進。ChatGPT 更正了 MiniGPT-4生成的不正確或不準(zhǔn)確的圖像描述。
關(guān)鍵要點:
MiniGPT-4可以描述圖像或回答有關(guān)圖像內(nèi)容的問題,例如,它可以根據(jù)菜肴的圖像生成食譜建議,或者為視障人士提供詳細的圖像描述。類似于Midjourney 的新“/describe”功能,MiniGPT-4可以從圖像中提取提示,或者至少是一些想法。
MiniGPT-4還可以根據(jù)手繪網(wǎng)頁草圖生成匹配的 HTML 代碼。研究人員稱,OpenAI在 GPT-4發(fā)布時推出的備受吹捧的草圖到網(wǎng)站功能也可以通過 MiniGPT-4完成。
Github 上提供了 MiniGPT-4的代碼、演示和培訓(xùn)說明。他們還宣布了一個較小版本的模型,它將在單個 Nvidia3090顯卡上運行。
重要性:
MiniGPT-4是開源社區(qū)在很短時間內(nèi)取得快速進步的一個例子。
MiniGPT-4的發(fā)展表明,純 AI 模型公司的護城河可能沒有那么高。
評析:
OpenAI 可能會專注于使用適用于 GPT-4的 ChatGPT 插件構(gòu)建合作伙伴生態(tài)系統(tǒng),而不是現(xiàn)在訓(xùn)練 GPT-5。
構(gòu)建聊天生態(tài)系統(tǒng)更具挑戰(zhàn)性且在經(jīng)濟上不可持續(xù),但會對用戶產(chǎn)生強烈的鎖定效應(yīng)。
GitHub:https://github.com/Vision-CAIR/MiniGPT-4
在線體驗:https://minigpt-4.github.io/
(舉報)