清華大學(xué)團(tuán)隊(duì)推出RTFS-Net:革新視聽語音分離，百萬參數(shù)實(shí)現(xiàn)高效性能

2024-03-06 17:14 · 稿源：站長(zhǎng)之家

**劃重點(diǎn):**
1. ??? RTFS-Net是首個(gè)采用少于100萬個(gè)參數(shù)的視聽語音分離方法，通過壓縮-重建策略顯著減少計(jì)算復(fù)雜度。
2. ?? 針對(duì)傳統(tǒng)視聽語音分離方法的問題，RTFS-Net創(chuàng)新性地解決了時(shí)域和時(shí)頻域方法的挑戰(zhàn)，提高了在復(fù)雜環(huán)境中的性能。
3. ?? 在三個(gè)基準(zhǔn)多模態(tài)語音分離數(shù)據(jù)集上，RTFS-Net在大幅降低模型參數(shù)和計(jì)算復(fù)雜度的同時(shí)，接近或超越了當(dāng)前最先進(jìn)的性能。

站長(zhǎng)之家（ChinaZ.com）3月6日消息:清華大學(xué)的胡曉林團(tuán)隊(duì)最近推出了一項(xiàng)創(chuàng)新性的視聽語音分離方法，稱為RTFS-Net。這一方法通過采用壓縮-重建的策略，不僅實(shí)現(xiàn)了百萬參數(shù)以下的視聽語音分離，而且顯著減少了計(jì)算復(fù)雜度，為音視頻分離領(lǐng)域帶來了新的視角。

傳統(tǒng)的視聽語音分離方法通常依賴于復(fù)雜的模型和大量的計(jì)算資源，尤其在嘈雜背景或多說話者場(chǎng)景下性能受到限制。RTFS-Net通過創(chuàng)新性地解決時(shí)域和時(shí)頻域方法的挑戰(zhàn)，突破了這些限制。時(shí)域方法提供高質(zhì)量的音頻分離效果，但計(jì)算復(fù)雜度高，而時(shí)頻域方法雖然計(jì)算效率更高，卻一直面臨缺乏獨(dú)立建模、未充分利用多個(gè)感受野的視覺線索和對(duì)復(fù)數(shù)特征處理不當(dāng)?shù)葐栴}。

RTFS-Net的關(guān)鍵在于引入了RTFS塊，該塊通過雙路徑架構(gòu)在時(shí)間和頻率兩個(gè)維度上對(duì)音頻信號(hào)進(jìn)行有效處理。具體來說，RTFS塊首先進(jìn)行時(shí)間和頻率維度的壓縮，然后在壓縮后的維度上進(jìn)行獨(dú)立建模，最后通過融合模塊將兩個(gè)維度的信息合并。這一策略不僅減少了計(jì)算復(fù)雜度，還保持了對(duì)音頻信號(hào)的高度敏感性和準(zhǔn)確性。

此外，RTFS-Net還引入了跨維注意力融合（CAF）模塊，有效融合音頻和視覺信息，提高了語音分離效果。CAF模塊采用深度和分組卷積操作生成注意力權(quán)重，動(dòng)態(tài)調(diào)整輸入特征的重要性，通過對(duì)視覺和聽覺特征應(yīng)用注意力權(quán)重，實(shí)現(xiàn)在多個(gè)維度上聚焦于關(guān)鍵信息。

最終，RTFS-Net的實(shí)驗(yàn)結(jié)果表明，在三個(gè)基準(zhǔn)多模態(tài)語音分離數(shù)據(jù)集上，該方法在大幅降低模型參數(shù)和計(jì)算復(fù)雜度的同時(shí)，接近或超越了當(dāng)前最先進(jìn)的性能。通過不同數(shù)量的RTFS塊的變體展示了在效率和性能之間的權(quán)衡，其中RTFS-Net-6在性能與效率方面取得了良好的平衡，而RTFS-Net-12在所有測(cè)試的數(shù)據(jù)集上表現(xiàn)最佳，證明了時(shí)頻域方法在處理復(fù)雜音視頻同步分離任務(wù)中的優(yōu)勢(shì)。

這一創(chuàng)新性的視聽語音分離方法為提高AVSS性能提供了新的思路，不僅降低了計(jì)算復(fù)雜度和參數(shù)數(shù)量，而且在保持顯著性能提升的同時(shí)，為音視頻分離領(lǐng)域注入了更多創(chuàng)新和高效的架構(gòu)。

論文地址:https://arxiv.org/abs/2309.17189
代碼地址:https://github.com/spkgyk/RTFS-Net（即將發(fā)布）

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

思看科技加入國(guó)家文物局重點(diǎn)科研基地（清華大學(xué)）杭州工作站

2024 年 11 月 30 日，清華大學(xué)國(guó)家文物局重點(diǎn)科研基地與清華大學(xué)人居環(huán)境信息實(shí)驗(yàn)室在清華大學(xué)建筑館多功能廳成功組織召開“空間信息技術(shù)賦能文化遺產(chǎn)保護(hù)與傳承”學(xué)術(shù)論壇。思看科技作為重要協(xié)辦單位出席會(huì)議并分享了3D掃描技術(shù)在文化遺產(chǎn)保護(hù)與傳承中的應(yīng)用實(shí)踐成果。次日，在清華大學(xué)國(guó)家文物局重點(diǎn)科研基地學(xué)術(shù)委員會(huì)二屆九次會(huì)議上，思看科技正式獲準(zhǔn)加入國(guó)?

?文化遺產(chǎn)保護(hù) ?空間信息技術(shù) ?3D掃描技術(shù)
思看科技 X 清華大學(xué)精密儀器系三維測(cè)量課程研討活動(dòng)圓滿舉辦

近日，思看科技與清華大學(xué)精密儀器系聯(lián)合舉辦了一場(chǎng)聚焦于三維視覺數(shù)字化測(cè)量技術(shù)應(yīng)用與創(chuàng)新的課程研討會(huì)。清華大學(xué)精密儀器系光電工程研究所副所長(zhǎng)尉昊赟副教授、思看科技CCO馬振華先生、思看科技產(chǎn)品與支持中心總監(jiān)王俊亮先生及產(chǎn)品工程師們與精密計(jì)量與測(cè)試相關(guān)方向的近 40 名研究生共同參與了此次課程研討活動(dòng)。本次活動(dòng)結(jié)合技術(shù)交流分享和設(shè)備現(xiàn)場(chǎng)實(shí)際操作?

?三維視覺 ?數(shù)字化測(cè)量技術(shù) ?產(chǎn)教融合
你支持嗎！清華大學(xué)教授建議把九年義務(wù)教育延長(zhǎng)到十二年減輕大家負(fù)擔(dān)

清華大學(xué)文科資深教授、經(jīng)管學(xué)院院長(zhǎng)，全國(guó)工商聯(lián)副主席白重恩表示，減輕居民負(fù)擔(dān)，把九年義務(wù)教育延長(zhǎng)到十二年。有一些居民的消費(fèi)跟公共財(cái)政有很大關(guān)系，比如教育，因?yàn)槲覀兊木拍炅x務(wù)教育是公共財(cái)政支持的，我們能不能把九年義務(wù)教育延長(zhǎng)變成十二年義務(wù)教育，讓居民教育的負(fù)擔(dān)減輕，讓學(xué)前教育質(zhì)量變得更好”他說。經(jīng)過其調(diào)研發(fā)現(xiàn)，整個(gè)社會(huì)對(duì)于中職教育的需求已逐漸變?nèi)?，能夠勝任技術(shù)程度較高工作的，起碼要接受過大?；蛘吒呗毥逃?，以前那些能夠讓中等職業(yè)學(xué)校畢業(yè)的學(xué)生勝任的工作，現(xiàn)在很多已經(jīng)消失了。

?教育改革 ?義務(wù)教育 ?居民負(fù)擔(dān)
快手可靈AI聯(lián)合清華大學(xué)發(fā)布《AI影像創(chuàng)作者手冊(cè)》

作為 2024 年大模型行業(yè)最受矚目的落地應(yīng)用之一，AI影像正在加速進(jìn)入標(biāo)準(zhǔn)化、產(chǎn)業(yè)化創(chuàng)作時(shí)代。 12 月 31 日，可靈AI聯(lián)合清華大學(xué)影視傳播研究中心共同發(fā)布了業(yè)內(nèi)首個(gè)《AI影像創(chuàng)作者手冊(cè)》，從視覺生成大模型的歷史脈絡(luò)、工作原理、實(shí)用路徑等維度展開，系統(tǒng)梳理了目前國(guó)內(nèi)外AI影像的前沿生產(chǎn)實(shí)踐，為有志于嘗試AI影像的創(chuàng)作者提供了一份翔實(shí)的行動(dòng)指南。業(yè)內(nèi)前沿實(shí)踐?

?AI影像 ?創(chuàng)作者手冊(cè) ?視覺生成大模型
科龍睡眠空調(diào)小耳朵語音款LK上市，高配語音高效省電

隨著科技的迅猛發(fā)展，智能家居系統(tǒng)逐漸成為現(xiàn)代生活不可或缺的一部分。在這一科技不斷演進(jìn)的時(shí)代，人們對(duì)于創(chuàng)新生活方式的追求愈發(fā)強(qiáng)烈。通過持續(xù)的技術(shù)革新以及對(duì)用戶需求的深刻洞察，科龍空調(diào)致力于為消費(fèi)者提供更為舒適、健康、智能化的家居生活解決方案。

?智能家居 ?語音交互 ?科龍空調(diào)
低成本+高效率！青島有源熱能借助低代碼實(shí)現(xiàn)高效辦公

“活字格，一切皆有可能?！薄畔⒓夹g(shù)部長(zhǎng)。青島有源熱能設(shè)備有限公司（以下簡(jiǎn)稱“青島有源熱能”），前身是日本獨(dú)資青島荏原環(huán)境設(shè)備有限公司通用鍋爐事業(yè)部，于 2018 年 3 月由原青島荏原通用事業(yè)團(tuán)隊(duì)的主要成員與西安交通大學(xué)趙欽新教授團(tuán)隊(duì)合作成立，由西安交通大學(xué)和株式會(huì)社日本熱能提供技術(shù)支持，是集研發(fā)、生產(chǎn)、銷售、服務(wù)為一體的鍋爐制造企業(yè)，擁

?青島有源熱能 ?鍋爐制造 ?低氮鍋爐
央視新聞首場(chǎng)AIGC大型晚會(huì)“AI奇妙夜”即將開啟攜手可靈AI打造創(chuàng)新視聽體驗(yàn)

隨著今年AI技術(shù)浪潮迭起，人工智能生成內(nèi)容（AIGC）正為視聽行業(yè)注入全新活力。 12 月 30 日晚八點(diǎn)，央視新聞首場(chǎng)AIGC大型晚會(huì)“AI奇妙夜”將正式開啟，本臺(tái)晚會(huì)由快手可靈AI全程提供技術(shù)支持，近百位創(chuàng)作者共同參與，打造集文藝創(chuàng)作和科技探索于一體的AIGC創(chuàng)新體驗(yàn)。屆時(shí)，央視新聞客戶端、快手號(hào)等新媒體渠道將同步播出。期許、感恩、追求……人類有無數(shù)種理解和表?

?AIGC ?AI技術(shù) ?視聽行業(yè)
高效學(xué)習(xí)指南:寒假用三星Galaxy Tab S10系列更自律

龜兔賽跑中，兔子就是因?yàn)檩p視了烏龜?shù)某掷m(xù)努力，在休息時(shí)被遠(yuǎn)遠(yuǎn)趕超。這樣的故事道理落實(shí)到實(shí)際生活中也是一樣——每個(gè)學(xué)期結(jié)束后的假期都是學(xué)習(xí)倦怠情緒的“高發(fā)期”。為了迎接新年到來，三星也在近日舉行了「好物星選新年狂歡」活動(dòng)，消費(fèi)者購買三星GalaxyTabS10系列即可享受限時(shí)至高800元優(yōu)惠，以及超值的以舊換新補(bǔ)貼或至高12期免息分期的豐富禮遇，驚喜好禮不容錯(cuò)過！

?科技學(xué)習(xí) ?平板電腦 ?自學(xué)方法
ChatGPT重大更新：新增實(shí)時(shí)搜索和高級(jí)語音

據(jù)報(bào)道，OpenAI開啟了第八天技術(shù)分享直播，對(duì)ChatGPT搜索功能進(jìn)行了大量更新。此次ChatGPT新增的功能亮點(diǎn)紛呈。有觀點(diǎn)認(rèn)為，這一功能未來有望與餐廳、商城等商業(yè)實(shí)體進(jìn)行深度合作，為用戶帶來更加便捷、全面的服務(wù)體驗(yàn)。

?OpenAI ?ChatGPT ?實(shí)時(shí)搜索
九號(hào)機(jī)器人方糖，打造智能、高效送物解決方案

現(xiàn)代社會(huì)越來越講究高效率，對(duì)于一些簡(jiǎn)單但高重復(fù)的工作，除了人手勞作，目前也有越來越多領(lǐng)域應(yīng)用到智能機(jī)器人。在酒店、寫字樓、商場(chǎng)、醫(yī)院等場(chǎng)景，配送機(jī)器人的普及率就越來越高。以上提到的九號(hào)機(jī)器人方糖，就可以為多種業(yè)務(wù)場(chǎng)景提供整套解決方案，為商業(yè)場(chǎng)景智慧化賦能。

?智能配送機(jī)器人 ?高效末端配送 ?精準(zhǔn)定位技術(shù)

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

清華大學(xué)團(tuán)隊(duì)推出RTFS-Net:革新視聽語音分離，百萬參數(shù)實(shí)現(xiàn)高效性能

思看科技加入國(guó)家文物局重點(diǎn)科研基地（清華大學(xué)）杭州工作站

思看科技 X 清華大學(xué)精密儀器系三維測(cè)量課程研討活動(dòng)圓滿舉辦

你支持嗎！清華大學(xué)教授建議把九年義務(wù)教育延長(zhǎng)到十二年減輕大家負(fù)擔(dān)

快手可靈AI聯(lián)合清華大學(xué)發(fā)布《AI影像創(chuàng)作者手冊(cè)》

科龍睡眠空調(diào)小耳朵語音款LK上市，高配語音高效省電

低成本+高效率！青島有源熱能借助低代碼實(shí)現(xiàn)高效辦公

央視新聞首場(chǎng)AIGC大型晚會(huì)“AI奇妙夜”即將開啟攜手可靈AI打造創(chuàng)新視聽體驗(yàn)

高效學(xué)習(xí)指南:寒假用三星Galaxy Tab S10系列更自律

ChatGPT重大更新：新增實(shí)時(shí)搜索和高級(jí)語音

九號(hào)機(jī)器人方糖，打造智能、高效送物解決方案

熱文

劉強(qiáng)東給小學(xué)老師每人發(fā)10萬現(xiàn)金：希望鄉(xiāng)親們新年開心

騰訊：企業(yè)微信HarmonyOS鴻蒙Next版正式上線

小紅書突破3000萬老年活躍用戶，創(chuàng)作者數(shù)量三年增三倍

抖音副總裁回應(yīng)用戶將錢讀成米：以訛傳訛平臺(tái)允許提“錢”

體驗(yàn)了羅永浩的AI應(yīng)用，我發(fā)現(xiàn)這就是一個(gè)大鍋亂燉的AI助理？

朱海舟體驗(yàn)羅永浩旗下AI助理J1 Assistant：原汁原味的錘科風(fēng)格

騰訊被列入美國(guó)“第1260H條清單” 回應(yīng)：是一個(gè)錯(cuò)誤會(huì)共同解

12306崩了客服回應(yīng)：系統(tǒng)維護(hù)中稍后再試

今日頭條宣布將推進(jìn)算法透明化破除信息繭房

京東緊急馳援西藏震區(qū) 劉強(qiáng)東：全國(guó)任何地方發(fā)生災(zāi)難捐物資無

劉強(qiáng)東給小學(xué)老師每人發(fā)10萬現(xiàn)金：希望鄉(xiāng)親們新年開心

騰訊：企業(yè)微信HarmonyOS鴻蒙Next版正式上線

蘋果市值一夜蒸發(fā)7248億此前官網(wǎng)已開啟降價(jià)活動(dòng)

雷軍親自出面海底撈正式入駐小米科技園全體員工88折

小紅書突破3000萬老年活躍用戶，創(chuàng)作者數(shù)量三年增三倍

抖音副總裁回應(yīng)用戶將錢讀成米：以訛傳訛平臺(tái)允許提“錢”

體驗(yàn)了羅永浩的AI應(yīng)用，我發(fā)現(xiàn)這就是一個(gè)大鍋亂燉的AI助理？

重回2008！騰訊官宣《穿越火線》懷舊模式上線時(shí)間：預(yù)約已開啟

辛巴要花15億開超市：號(hào)稱將改變大家消費(fèi)習(xí)慣

1999元全球首款媽祖平安智能手表發(fā)布：搭載華為智能機(jī)芯

站長(zhǎng)商機(jī)

清華大學(xué)團(tuán)隊(duì)推出RTFS-Net:革新視聽語音分離，百萬參數(shù)實(shí)現(xiàn)高效性能

熱文

站長(zhǎng)商機(jī)

清華大學(xué)團(tuán)隊(duì)推出RTFS-Net:革新視聽語音分離，百萬參數(shù)實(shí)現(xiàn)高效性能