站長之家(ChinaZ.com)10月12日 消息:最近,卡內(nèi)基梅隆大學(xué)、Google研究以及喬治亞理工學(xué)院聯(lián)合推出了一項名為MAGVIT-v2的視頻標記工具,它成功地將圖像和視頻輸入轉(zhuǎn)化為大型語言模型(LLM)可識別的標記。
項目地址:https://magvit.cs.cmu.edu/
MAGVIT-v2的獨特算法讓開發(fā)者可以實現(xiàn)令人驚嘆的應(yīng)用。從全景視頻到智能去除、圖像轉(zhuǎn)動動畫,再到自動翻轉(zhuǎn)等等。MAGVIT不僅為創(chuàng)作者提供無限靈感,還為視頻編輯帶來前所未有的便捷性。
通過MAGVIT-v2的應(yīng)用,LLM在視覺生成任務(wù)中的表現(xiàn)已明顯超越了傳統(tǒng)的擴散模型。視頻標記化是將視覺內(nèi)容(如圖像或視頻)轉(zhuǎn)化為大型語言模型能夠理解和處理的標記的過程。MAGVIT-v2的問世,毫無疑問為大型語言模型在視覺任務(wù)方面提供了嶄新的機遇。
在視覺生成任務(wù)方面,這一新型標記工具已經(jīng)展現(xiàn)出極大的潛力,可以明顯改善模型的表現(xiàn)??偟膩砜矗琈AGVIT-v2的發(fā)布,預(yù)示著視覺生成領(lǐng)域的一次重大突破。
(舉報)