要點:
FreeInit方法提升視頻擴散模型生成的時空一致性。
通過發(fā)現(xiàn)噪聲初始化在視頻擴散模型中存在的隱含訓練-推理差距,提出了FreeInit,無需額外訓練,不引入可學習參數。
FreeInit通過迭代優(yōu)化推理初始噪聲的時空低頻組件,彌補訓練和推理之間的初始化差距,顯著提高生成結果的時空一致性。
站長之家(ChinaZ.com)12月14日 消息:南洋理工大學發(fā)布了一項名為FreeInit的方法,該方法可以大幅提高人工智能視頻生成的內容一致性。演示顯示這一方法非常流暢,并且可以與現(xiàn)有的SD生態(tài)結合。此外,他們還發(fā)表了與Animatediff結合的方法,只需等待一些專業(yè)人士制作插件,就可以使用這一方法。視頻中展示了使用了FreeInit和未使用FreeInit的Animaetdiff的對比。
項目地址:https://tianxingwu.github.io/pages/FreeInit/
根據他們的介紹,他們深入研究了視頻擴散模型的噪聲初始化,并發(fā)現(xiàn)了一個隱含的訓練-推斷差距,導致了推斷質量的下降。他們的關鍵發(fā)現(xiàn)包括推斷時初始潛變量的信噪比(SNR)的時空頻率分布與訓練時本質上不同,以及去噪過程受到初始噪聲的低頻分量的顯著影響。
在受到這些觀察的啟發(fā)下,他們提出了一種簡潔而有效的推斷采樣策略FreeInit,該策略能夠顯著改善擴散模型生成的視頻的時間一致性。通過在推斷過程中迭代地優(yōu)化初始潛變量的時空低頻分量,F(xiàn)reeInit能夠彌補訓練和推斷之間的初始化差距,從而有效改善生成結果的主體外觀和時間一致性。
FreeInit以迭代方式改進推斷初始噪聲,通過DDIM采樣、DDPM前向和噪聲重新初始化,初始噪聲的低頻成分逐漸得到改進,從而持續(xù)增強時間一致性和主體外觀。
這一方法的發(fā)布為人工智能視頻生成領域帶來了新的突破,將有望提高視頻生成的質量和時間一致性。隨著這一技術的不斷發(fā)展和完善,相信將會為視頻內容創(chuàng)作和人工智能應用帶來更多的可能性。
(舉報)