近日,百度聯(lián)合復旦大學等發(fā)布Hallo2,一個可以生成長達數(shù)小時且分辨率為4K的人物動畫的視覺模型。Hallo2 目前已經在GitHub平臺開源,供全球開發(fā)者免費使用和研究,預計將促進視頻生成技術的廣泛應用和發(fā)展。
Hallo2 發(fā)布后在海外引發(fā)了不小的震動。有人驚嘆視頻生成的長度和分辨率,也有老用戶從Hallo首先代模型就被圈粉。
還有對Hallo2 開源模型和代碼的認可。
Hallo2 備受關注,很重要一個原因是百度和復旦的研究團隊解決了人像視頻生成一個很大的痛點:如何提升視頻生成的時長和質量。
一直以來,生成高質量的人物動畫需要耗費大量的時間和人力成本。而百度與復旦聯(lián)合發(fā)布的Hallo2 的出現(xiàn),有望徹底改變這一現(xiàn)狀,為數(shù)字人、電影制作、虛擬助手、游戲開發(fā)等領域帶來革命性的變化。這不同于Sora等AI視頻生成模型遭遇到的發(fā)展瓶頸,Hallo2 模型解決的問題更垂直,可落地空間更大。
Hallo2 是目前頭個實現(xiàn)長達一小時、4K分辨率的音頻驅動人像動畫生成模型。通過創(chuàng)新的圖像塊丟棄、噪聲增強和時間對齊等技術,Hallo2 解決了長時視頻生成中的外觀漂移和視覺不一致問題,支持靈活的語音與文本控制,生成質量達到業(yè)內領先水平。
Hallo2 繼承了前代Hallo模型的創(chuàng)新框架,繼續(xù)采用基于擴散的生成模型和分層音頻驅動視覺合成模塊,提高了音頻與視覺輸出之間的同步精度,并經過改進使得各部分的協(xié)同作用更加有效,增強了生成動畫的質量和真實感。此外,Hallo2 不僅在圖像和視頻的質量方面有了顯著提升,而且大幅增加了動作的豐富性和多樣性,可以說為AI驅動的肖像圖像動畫領域樹立了新的標桿。
有行業(yè)專家表示,Hallo2 的出現(xiàn),標志著音頻驅動的肖像圖像動畫技術邁入了新的發(fā)展階段。百度基于長期的視覺技術積累,正在瞄準行業(yè)痛點進行針對性研究和場景落地,不僅為開發(fā)者提供了強大的工具,也為未來各種應用場景下的動畫形象創(chuàng)作帶來了新的可能性。
目前Hallo2 模型已在GitHub上開源,項目地址:https://fudan-generative-vision.github.io/hallo2/#/。
另據(jù)悉,除視覺模型外,作為中國比較大的AI公司,百度將在 11 月 12 日召開百度世界大會2024,展現(xiàn)更多AI方面的應用和技術進展。大會將圍繞大模型和AI應用帶來五大亮點,除百度創(chuàng)始人李彥宏領銜的主題演講外,還有100+AI原生應用發(fā)布、四場主題分論壇、30+公開課和 5000 平米AI展區(qū),全方位展示AI應用的落地成果。大會目前已開放免費報名通道,可通過大會官網報名參會。
(推廣)