幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > RTFS-Net最新資訊  > 正文

清華大學(xué)團(tuán)隊(duì)推出RTFS-Net:革新視聽語音分離,百萬參數(shù)實(shí)現(xiàn)高效性能

2024-03-06 17:14 · 稿源:站長(zhǎng)之家

**劃重點(diǎn):**

1. ??? RTFS-Net首個(gè)采用少于100萬個(gè)參數(shù)的視聽語音分離方法,通過壓縮-重建策略顯著減少計(jì)算復(fù)雜度。

2. ?? 針對(duì)傳統(tǒng)視聽語音分離方法的問題,RTFS-Net創(chuàng)新性地解決了時(shí)域和時(shí)頻域方法的挑戰(zhàn),提高了在復(fù)雜環(huán)境中的性能。

3. ?? 在三個(gè)基準(zhǔn)多模態(tài)語音分離數(shù)據(jù)集上,RTFS-Net在大幅降低模型參數(shù)和計(jì)算復(fù)雜度的同時(shí),接近或超越了當(dāng)前最先進(jìn)的性能。

站長(zhǎng)之家(ChinaZ.com)3月6日 消息:清華大學(xué)的胡曉林團(tuán)隊(duì)最近推出了一項(xiàng)創(chuàng)新性的視聽語音分離方法,稱為RTFS-Net。這一方法通過采用壓縮-重建的策略,不僅實(shí)現(xiàn)了百萬參數(shù)以下的視聽語音分離,而且顯著減少了計(jì)算復(fù)雜度,為音視頻分離領(lǐng)域帶來了新的視角。

image.png

傳統(tǒng)的視聽語音分離方法通常依賴于復(fù)雜的模型和大量的計(jì)算資源,尤其在嘈雜背景或多說話者場(chǎng)景下性能受到限制。RTFS-Net通過創(chuàng)新性地解決時(shí)域和時(shí)頻域方法的挑戰(zhàn),突破了這些限制。時(shí)域方法提供高質(zhì)量的音頻分離效果,但計(jì)算復(fù)雜度高,而時(shí)頻域方法雖然計(jì)算效率更高,卻一直面臨缺乏獨(dú)立建模、未充分利用多個(gè)感受野的視覺線索和對(duì)復(fù)數(shù)特征處理不當(dāng)?shù)葐栴}。

RTFS-Net的關(guān)鍵在于引入了RTFS塊,該塊通過雙路徑架構(gòu)在時(shí)間和頻率兩個(gè)維度上對(duì)音頻信號(hào)進(jìn)行有效處理。具體來說,RTFS塊首先進(jìn)行時(shí)間和頻率維度的壓縮,然后在壓縮后的維度上進(jìn)行獨(dú)立建模,最后通過融合模塊將兩個(gè)維度的信息合并。這一策略不僅減少了計(jì)算復(fù)雜度,還保持了對(duì)音頻信號(hào)的高度敏感性和準(zhǔn)確性。

此外,RTFS-Net還引入了跨維注意力融合(CAF)模塊,有效融合音頻和視覺信息,提高了語音分離效果。CAF模塊采用深度和分組卷積操作生成注意力權(quán)重,動(dòng)態(tài)調(diào)整輸入特征的重要性,通過對(duì)視覺和聽覺特征應(yīng)用注意力權(quán)重,實(shí)現(xiàn)在多個(gè)維度上聚焦于關(guān)鍵信息。

最終,RTFS-Net的實(shí)驗(yàn)結(jié)果表明,在三個(gè)基準(zhǔn)多模態(tài)語音分離數(shù)據(jù)集上,該方法在大幅降低模型參數(shù)和計(jì)算復(fù)雜度的同時(shí),接近或超越了當(dāng)前最先進(jìn)的性能。通過不同數(shù)量的RTFS塊的變體展示了在效率和性能之間的權(quán)衡,其中RTFS-Net-6在性能與效率方面取得了良好的平衡,而RTFS-Net-12在所有測(cè)試的數(shù)據(jù)集上表現(xiàn)最佳,證明了時(shí)頻域方法在處理復(fù)雜音視頻同步分離任務(wù)中的優(yōu)勢(shì)。

這一創(chuàng)新性的視聽語音分離方法為提高AVSS性能提供了新的思路,不僅降低了計(jì)算復(fù)雜度和參數(shù)數(shù)量,而且在保持顯著性能提升的同時(shí),為音視頻分離領(lǐng)域注入了更多創(chuàng)新和高效的架構(gòu)。

  • 論文地址:https://arxiv.org/abs/2309.17189

  • 代碼地址:https://github.com/spkgyk/RTFS-Net(即將發(fā)布)

舉報(bào)

  • 相關(guān)推薦
  • 思看科技加入國(guó)家文物局重點(diǎn)科研基地(清華大學(xué))杭州工作站

    2024 年 11 月 30 日,清華大學(xué)國(guó)家文物局重點(diǎn)科研基地與清華大學(xué)人居環(huán)境信息實(shí)驗(yàn)室在清華大學(xué)建筑館多功能廳成功組織召開“空間信息技術(shù)賦能文化遺產(chǎn)保護(hù)與傳承”學(xué)術(shù)論壇。思看科技作為重要協(xié)辦單位出席會(huì)議并分享了3D掃描技術(shù)在文化遺產(chǎn)保護(hù)與傳承中的應(yīng)用實(shí)踐成果。次日,在清華大學(xué)國(guó)家文物局重點(diǎn)科研基地學(xué)術(shù)委員會(huì)二屆九次會(huì)議上,思看科技正式獲準(zhǔn)加入國(guó)?

  • 思看科技 X 清華大學(xué)精密儀器系三維測(cè)量課程研討活動(dòng)圓滿舉辦

    近日,思看科技與清華大學(xué)精密儀器系聯(lián)合舉辦了一場(chǎng)聚焦于三維視覺數(shù)字化測(cè)量技術(shù)應(yīng)用與創(chuàng)新的課程研討會(huì)。清華大學(xué)精密儀器系光電工程研究所副所長(zhǎng)尉昊赟副教授、思看科技CCO馬振華先生、思看科技產(chǎn)品與支持中心總監(jiān)王俊亮先生及產(chǎn)品工程師們與精密計(jì)量與測(cè)試相關(guān)方向的近 40 名研究生共同參與了此次課程研討活動(dòng)。本次活動(dòng)結(jié)合技術(shù)交流分享和設(shè)備現(xiàn)場(chǎng)實(shí)際操作?

  • 你支持嗎!清華大學(xué)教授建議把九年義務(wù)教育延長(zhǎng)到十二年 減輕大家負(fù)擔(dān)

    清華大學(xué)文科資深教授、經(jīng)管學(xué)院院長(zhǎng),全國(guó)工商聯(lián)副主席白重恩表示,減輕居民負(fù)擔(dān),把九年義務(wù)教育延長(zhǎng)到十二年。有一些居民的消費(fèi)跟公共財(cái)政有很大關(guān)系,比如教育,因?yàn)槲覀兊木拍炅x務(wù)教育是公共財(cái)政支持的,我們能不能把九年義務(wù)教育延長(zhǎng)變成十二年義務(wù)教育,讓居民教育的負(fù)擔(dān)減輕,讓學(xué)前教育質(zhì)量變得更好”他說。經(jīng)過其調(diào)研發(fā)現(xiàn),整個(gè)社會(huì)對(duì)于中職教育的需求已逐漸變?nèi)?,能夠勝任技術(shù)程度較高工作的,起碼要接受過大?;蛘吒呗毥逃?,以前那些能夠讓中等職業(yè)學(xué)校畢業(yè)的學(xué)生勝任的工作,現(xiàn)在很多已經(jīng)消失了。

  • 快手可靈AI聯(lián)合清華大學(xué)發(fā)布《AI影像創(chuàng)作者手冊(cè)》

    作為 2024 年大模型行業(yè)最受矚目的落地應(yīng)用之一,AI影像正在加速進(jìn)入標(biāo)準(zhǔn)化、產(chǎn)業(yè)化創(chuàng)作時(shí)代。 12 月 31 日,可靈AI聯(lián)合清華大學(xué)影視傳播研究中心共同發(fā)布了業(yè)內(nèi)首個(gè)《AI影像創(chuàng)作者手冊(cè)》,從視覺生成大模型的歷史脈絡(luò)、工作原理、實(shí)用路徑等維度展開,系統(tǒng)梳理了目前國(guó)內(nèi)外AI影像的前沿生產(chǎn)實(shí)踐,為有志于嘗試AI影像的創(chuàng)作者提供了一份翔實(shí)的行動(dòng)指南。業(yè)內(nèi)前沿實(shí)踐?

  • 科龍睡眠空調(diào)小耳朵語音款LK上市,語音高效省電

    隨著科技的迅猛發(fā)展,智能家居系統(tǒng)逐漸成為現(xiàn)代生活不可或缺的一部分。在這一科技不斷演進(jìn)的時(shí)代,人們對(duì)于創(chuàng)新生活方式的追求愈發(fā)強(qiáng)烈。通過持續(xù)的技術(shù)革新以及對(duì)用戶需求的深刻洞察,科龍空調(diào)致力于為消費(fèi)者提供更為舒適、健康、智能化的家居生活解決方案。

  • 低成本+高效率!青島有源熱能借助低代碼實(shí)現(xiàn)高效辦公

    “活字格,一切皆有可能?!薄畔⒓夹g(shù)部長(zhǎng)。 青島有源熱能設(shè)備有限公司(以下簡(jiǎn)稱“青島有源熱能”),前身是日本獨(dú)資青島荏原環(huán)境設(shè)備有限公司通用鍋爐事業(yè)部,于 2018 年 3 月由原青島荏原通用事業(yè)團(tuán)隊(duì)的主要成員與西安交通大學(xué)趙欽新教授團(tuán)隊(duì)合作成立,由西安交通大學(xué)和株式會(huì)社日本熱能提供技術(shù)支持,是集研發(fā)、生產(chǎn)、銷售、服務(wù)為一體的鍋爐制造企業(yè),擁

  • 央視新聞首場(chǎng)AIGC大型晚會(huì)“AI奇妙夜”即將開啟 攜手可靈AI打造創(chuàng)新視聽體驗(yàn)

    隨著今年AI技術(shù)浪潮迭起,人工智能生成內(nèi)容(AIGC) 正為視聽行業(yè)注入全新活力。 12 月 30 日晚八點(diǎn),央視新聞首場(chǎng)AIGC大型晚會(huì)“AI奇妙夜”將正式開啟,本臺(tái)晚會(huì)由快手可靈AI全程提供技術(shù)支持,近百位創(chuàng)作者共同參與,打造集文藝創(chuàng)作和科技探索于一體的AIGC創(chuàng)新體驗(yàn)。屆時(shí),央視新聞客戶端、快手號(hào)等新媒體渠道將同步播出。期許、感恩、追求……人類有無數(shù)種理解和表?

  • 高效學(xué)習(xí)指南:寒假用三星Galaxy Tab S10系列更自律

    龜兔賽跑中,兔子就是因?yàn)檩p視了烏龜?shù)某掷m(xù)努力,在休息時(shí)被遠(yuǎn)遠(yuǎn)趕超。這樣的故事道理落實(shí)到實(shí)際生活中也是一樣——每個(gè)學(xué)期結(jié)束后的假期都是學(xué)習(xí)倦怠情緒的“高發(fā)期”。為了迎接新年到來,三星也在近日舉行了「好物星選新年狂歡」活動(dòng),消費(fèi)者購買三星GalaxyTabS10系列即可享受限時(shí)至高800元優(yōu)惠,以及超值的以舊換新補(bǔ)貼或至高12期免息分期的豐富禮遇,驚喜好禮不容錯(cuò)過!

  • ChatGPT重大更新:新增實(shí)時(shí)搜索和高級(jí)語音

    據(jù)報(bào)道,OpenAI開啟了第八天技術(shù)分享直播,對(duì)ChatGPT搜索功能進(jìn)行了大量更新。此次ChatGPT新增的功能亮點(diǎn)紛呈。有觀點(diǎn)認(rèn)為,這一功能未來有望與餐廳、商城等商業(yè)實(shí)體進(jìn)行深度合作,為用戶帶來更加便捷、全面的服務(wù)體驗(yàn)。

  • 九號(hào)機(jī)器人方糖,打造智能、高效送物解決方案

    現(xiàn)代社會(huì)越來越講究高效率,對(duì)于一些簡(jiǎn)單但高重復(fù)的工作,除了人手勞作,目前也有越來越多領(lǐng)域應(yīng)用到智能機(jī)器人。在酒店、寫字樓、商場(chǎng)、醫(yī)院等場(chǎng)景,配送機(jī)器人的普及率就越來越高。以上提到的九號(hào)機(jī)器人方糖,就可以為多種業(yè)務(wù)場(chǎng)景提供整套解決方案,為商業(yè)場(chǎng)景智慧化賦能。

熱文

  • 3 天
  • 7天