站長之家(ChinaZ.com) 5月14日 消息:今日,騰訊旗下引人注目的混元文生圖大模型(混元DiT)宣布全面開源,這一重要舉措標(biāo)志著人工智能領(lǐng)域的又一里程碑。該模型已在Hugging Face和Github平臺上發(fā)布,包含完整的模型權(quán)重、推理代碼和算法,面向全球的企業(yè)與個(gè)人開發(fā)者免費(fèi)開放商用。
騰訊混元文生圖大模型的負(fù)責(zé)人盧清林表示,混元DiT的開源具有雙重價(jià)值。首先,作為業(yè)內(nèi)首個(gè)中文原生DiT架構(gòu),它填補(bǔ)了開源社區(qū)的空白,為中文領(lǐng)域的多模態(tài)視覺生成提供了強(qiáng)有力的支持。其次,混元DiT的開源是全面開放的,與現(xiàn)網(wǎng)版本完全一致,保證了開發(fā)者和用戶能夠獲取到最先進(jìn)、最實(shí)用的技術(shù)。
此次開源的混元DiT采用了與Sora同樣的關(guān)鍵技術(shù)DiT架構(gòu),不僅支持256字中文理解,還能夠作為視頻等多模態(tài)視覺生成的基礎(chǔ)。為了實(shí)現(xiàn)這一功能,騰訊團(tuán)隊(duì)精心設(shè)計(jì)了Transformer結(jié)構(gòu)、文本編碼器和位置編碼,并構(gòu)建了完整的數(shù)據(jù)管道,用于持續(xù)更新和評估數(shù)據(jù),為模型的優(yōu)化迭代提供了有力支持。
值得一提的是,混元DiT還通過訓(xùn)練多模態(tài)大語言模型來優(yōu)化圖像的文本描述,實(shí)現(xiàn)了細(xì)粒度的文本理解。這使得用戶能夠與之進(jìn)行多輪對話,根據(jù)上下文生成并完善圖像,為創(chuàng)意設(shè)計(jì)和內(nèi)容創(chuàng)作提供了無限可能。
騰訊混元文生圖大模型的全面開源,無疑將為全球的開發(fā)者和用戶帶來更為廣闊的創(chuàng)新空間和應(yīng)用前景。我們期待這一技術(shù)的進(jìn)一步發(fā)展和應(yīng)用,為人工智能領(lǐng)域帶來更多的驚喜和突破。
項(xiàng)目地址:https://github.com/Tencent/HunyuanDiT
(舉報(bào))