**劃重點(diǎn):**
1. ??? RTFS-Net是首個(gè)采用少于100萬個(gè)參數(shù)的視聽語音分離方法,通過壓縮-重建策略顯著減少計(jì)算復(fù)雜度。
2. ?? 針對(duì)傳統(tǒng)視聽語音分離方法的問題,RTFS-Net創(chuàng)新性地解決了時(shí)域和時(shí)頻域方法的挑戰(zhàn),提高了在復(fù)雜環(huán)境中的性能。
3. ?? 在三個(gè)基準(zhǔn)多模態(tài)語音分離數(shù)據(jù)集上,RTFS-Net在大幅降低模型參數(shù)和計(jì)算復(fù)雜度的同時(shí),接近或超越了當(dāng)前最先進(jìn)的性能。
站長(zhǎng)之家(ChinaZ.com)3月6日 消息:清華大學(xué)的胡曉林團(tuán)隊(duì)最近推出了一項(xiàng)創(chuàng)新性的視聽語音分離方法,稱為RTFS-Net。這一方法通過采用壓縮-重建的策略,不僅實(shí)現(xiàn)了百萬參數(shù)以下的視聽語音分離,而且顯著減少了計(jì)算復(fù)雜度,為音視頻分離領(lǐng)域帶來了新的視角。
傳統(tǒng)的視聽語音分離方法通常依賴于復(fù)雜的模型和大量的計(jì)算資源,尤其在嘈雜背景或多說話者場(chǎng)景下性能受到限制。RTFS-Net通過創(chuàng)新性地解決時(shí)域和時(shí)頻域方法的挑戰(zhàn),突破了這些限制。時(shí)域方法提供高質(zhì)量的音頻分離效果,但計(jì)算復(fù)雜度高,而時(shí)頻域方法雖然計(jì)算效率更高,卻一直面臨缺乏獨(dú)立建模、未充分利用多個(gè)感受野的視覺線索和對(duì)復(fù)數(shù)特征處理不當(dāng)?shù)葐栴}。
RTFS-Net的關(guān)鍵在于引入了RTFS塊,該塊通過雙路徑架構(gòu)在時(shí)間和頻率兩個(gè)維度上對(duì)音頻信號(hào)進(jìn)行有效處理。具體來說,RTFS塊首先進(jìn)行時(shí)間和頻率維度的壓縮,然后在壓縮后的維度上進(jìn)行獨(dú)立建模,最后通過融合模塊將兩個(gè)維度的信息合并。這一策略不僅減少了計(jì)算復(fù)雜度,還保持了對(duì)音頻信號(hào)的高度敏感性和準(zhǔn)確性。
此外,RTFS-Net還引入了跨維注意力融合(CAF)模塊,有效融合音頻和視覺信息,提高了語音分離效果。CAF模塊采用深度和分組卷積操作生成注意力權(quán)重,動(dòng)態(tài)調(diào)整輸入特征的重要性,通過對(duì)視覺和聽覺特征應(yīng)用注意力權(quán)重,實(shí)現(xiàn)在多個(gè)維度上聚焦于關(guān)鍵信息。
最終,RTFS-Net的實(shí)驗(yàn)結(jié)果表明,在三個(gè)基準(zhǔn)多模態(tài)語音分離數(shù)據(jù)集上,該方法在大幅降低模型參數(shù)和計(jì)算復(fù)雜度的同時(shí),接近或超越了當(dāng)前最先進(jìn)的性能。通過不同數(shù)量的RTFS塊的變體展示了在效率和性能之間的權(quán)衡,其中RTFS-Net-6在性能與效率方面取得了良好的平衡,而RTFS-Net-12在所有測(cè)試的數(shù)據(jù)集上表現(xiàn)最佳,證明了時(shí)頻域方法在處理復(fù)雜音視頻同步分離任務(wù)中的優(yōu)勢(shì)。
這一創(chuàng)新性的視聽語音分離方法為提高AVSS性能提供了新的思路,不僅降低了計(jì)算復(fù)雜度和參數(shù)數(shù)量,而且在保持顯著性能提升的同時(shí),為音視頻分離領(lǐng)域注入了更多創(chuàng)新和高效的架構(gòu)。
論文地址:https://arxiv.org/abs/2309.17189
代碼地址:https://github.com/spkgyk/RTFS-Net(即將發(fā)布)
(舉報(bào))