北京智源人工智能研究院(BAAI)近日宣布推出了一款全新的全能視覺生成模型OmniGen,標(biāo)志著圖像生成領(lǐng)域的一項(xiàng)重大突破。OmniGen模型以其統(tǒng)一性、簡(jiǎn)單性和跨任務(wù)知識(shí)遷移能力而著稱,能夠在單一框架內(nèi)處理多種圖像生成任務(wù),包括文生圖、圖像編輯、主題驅(qū)動(dòng)生成和視覺條件生成等。此外,OmniGen還能夠處理一些經(jīng)典的計(jì)算機(jī)視覺任務(wù),如圖像去噪和邊緣檢測(cè),通過將這些任務(wù)轉(zhuǎn)換為圖像生成任務(wù)來實(shí)現(xiàn)。
OmniGen的核心優(yōu)勢(shì)在于其簡(jiǎn)化的架構(gòu)和用戶友好的操作,用戶可以通過簡(jiǎn)單的指令完成復(fù)雜的圖像生成任務(wù),無需額外的插件或復(fù)雜的處理步驟。這種統(tǒng)一格式的學(xué)習(xí)使得OmniGen能夠有效地跨不同任務(wù)遷移知識(shí),應(yīng)對(duì)未見過的任務(wù)和領(lǐng)域,并展示新穎的功能。
OmniGen模型的能力不僅限于上述內(nèi)容,還包括基本的圖像處理能力如去噪和邊緣提取。模型的權(quán)重和代碼已經(jīng)開源,以便用戶可以自行探索更多OmniGen的能力,并根據(jù)需要進(jìn)行微調(diào)。智源研究院構(gòu)建了一個(gè)大規(guī)模且多樣化的統(tǒng)一圖像生成數(shù)據(jù)集X2I,包含約1億圖像,未來將開源,以推動(dòng)通用圖像生成領(lǐng)域的發(fā)展。
相關(guān)鏈接:
Paper: https://arxiv.org/pdf/2409.11340
Code: https://github.com/VectorSpaceLab/OmniGen
Demo: https://huggingface.co/spaces/Shitao/OmniGen
AiBase副業(yè)搞錢交流群
歡迎大家加入AiBase交流群, 掃碼進(jìn)入,暢談AI賺錢心得,共享最新行業(yè)動(dòng)態(tài),發(fā)現(xiàn)潛在合作伙伴,迎接未來的賺錢機(jī)遇!。