幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 傳媒 > 關鍵詞  > 趣丸科技最新資訊  > 正文

趣丸科技聯(lián)合港中大(深圳)開源語音大模型MaskGCT,刷新全球多項SOTA

2024-10-25 19:50 · 稿源: 站長之家用戶

10月24日,趣丸科技宣布與香港中文大學(深圳)聯(lián)合研發(fā)的語音大模型MaskGCT”正式在Amphion系統(tǒng)中開源,面向全球用戶開放使用。區(qū)別于傳統(tǒng)TTS模型,該模型采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式,在聲音克隆、跨語種合成、語音控制等任務中展現(xiàn)出卓越效果。

據(jù)介紹,MaskGCT在三個TTS基準數(shù)據(jù)集上都達到了SOTA效果,超過當前先進的同類模型。

論文鏈接:https://arxiv.org/abs/2409.00750

交互Demo:https://huggingface.co/spaces/amphion/maskgct

樣例展示:https://maskgct.github.io/

Amphion地址:https://github.com/open-mmlab/Amphion

模型下載:https://huggingface.co/amphion/maskgct

項目地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

公測版地址(趣丸千音): voice.funnycp.com

模型能力全球領先,躋身首先梯隊

相較于現(xiàn)有的TTS大模型,MaskGCT在語音的相似度、質(zhì)量和穩(wěn)定性上進一步突破,尤其在語音相似度方面處于相對領先地位。顯著特點如下:

1、秒級超逼真的聲音克隆:提供3秒音頻樣本即可復刻人類、動漫、“耳邊細語”等任意音色,且能完整復刻語調(diào)、風格和情感。

2、更精細可控的語音生成:可靈活調(diào)整生成語音的長度、語速和情緒,支持通過編輯文本編輯語音,并保持韻律、音色等方面的極度一致。

3、高質(zhì)量多語種語音數(shù)據(jù)集:訓練于香港中文大學(深圳)和趣丸科技等機構聯(lián)合推出的10萬小時數(shù)據(jù)集Emilia,是全球比較大且最為多樣的高質(zhì)量多語種語音數(shù)據(jù)集之一,精通中英日韓法德6種語言的跨語種合成。

優(yōu)秀的模型離不開先進的團隊。MaskGCT研發(fā)團隊在語音領域擁有深厚的研究積累和原創(chuàng)性成果。該工作由港中大(深圳)-趣丸科技人工智能聯(lián)合實驗室成員完成,這主要依托趣丸科技十年深耕音頻技術領域和億級高質(zhì)量語音用戶的服務經(jīng)驗,以及香港中文大學(深圳)國際知名水平的師資隊伍。

技術范式創(chuàng)新,突破大模型能力邊界

MaskGCT(Masked Generative Codec Transformer)是一個大規(guī)模的零樣本TTS模型,采用非自回歸掩碼生成Transformer,無需文本與語音的對齊監(jiān)督和音素級持續(xù)時間預測。其技術突破性在于采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式。實驗表明,MaskGCT在語音質(zhì)量、相似度和可理解性方面優(yōu)于當前先進的TTS模型,并且在模型規(guī)模和訓練數(shù)據(jù)量增加時表現(xiàn)更佳,同時能夠控制生成語音的總時長。MaskGCT已在香港中文大學(深圳)與上海人工智能實驗室聯(lián)合開發(fā)的開源系統(tǒng)Amphion發(fā)布。

據(jù)介紹,MaskGCT是一個兩階段模型。在首先階段,模型使用文本預測從語音自監(jiān)督學習(SSL)模型中提取的語義標記;在第二階段,模型基于這些語義標記預測聲學標記。MaskGCT遵循掩碼預測學習范式。在訓練過程中,MaskGCT學習根據(jù)給定的條件和提示預測掩碼的語義或聲學標記。在推理過程中,模型以并行方式生成指定長度的標記。通過對10萬小時的自然語音進行實驗,結果表明MaskGCT在質(zhì)量、相似度和可理解性方面優(yōu)于當前先進的零樣本TTS系統(tǒng)。

科研成果走出實驗室,應用前景廣闊

MaskGCT的誕生,再次證明即使在算力受限的情況下,中國AI企業(yè)仍有勇氣和底氣追趕并超越西方同行。

然而,除了保持技術領先,大模型的更大價值在于走出實驗室,賦能千行百業(yè)惠及千家萬戶,成為驅動經(jīng)濟增長的新質(zhì)生產(chǎn)力。

目前,MaskGCT在短劇出海、數(shù)字人、智能助手、有聲讀物、輔助教育等領域擁有豐富的應用場景。為了加快落地應用,在安全合規(guī)下,趣丸科技打造了多語種速譯智能視聽平臺“趣丸千音”。一鍵上傳視頻即可快速翻譯成多語種版本,并實現(xiàn)字幕修復與翻譯、語音翻譯、唇音同步等功能。該產(chǎn)品進一步革新視頻翻譯制作流程,大幅降低過往昂貴的人工翻譯成本和冗長的制作周期,成為影視、游戲、短劇等內(nèi)容出海的理想選擇平臺。

《2024年短劇出海白皮書》顯示,2023年海外市場規(guī)模高達650億美元,約為國內(nèi)市場的12倍,短劇出海成為藍海新賽道。以“趣丸千音”為代表的產(chǎn)品的出現(xiàn),將加速國產(chǎn)短劇“走出去”,進一步推動中華文化在全球不同語境下的傳播。

推廣

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺用戶上傳并發(fā)布,本平臺僅提供信息存儲服務,對本頁面內(nèi)容所引致的錯誤、不確或遺漏,概不負任何法律責任,相關信息僅供參考。站長之家將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。任何單位或個人認為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,可及時向站長之家提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明(點擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會依法依規(guī)核實信息,溝通刪除相關內(nèi)容或斷開相關鏈接。

  • 相關推薦
  • 出門問問「序列猴子」語音大模型通過生成式人工智能服務備案

    出門問問多模態(tài)大模型又添新備案!出門問問語音大模型「序列猴子」成功通過上海市生成式人工智能服務備案,這是出門問問繼「序列猴子」大模型完成相應備案后的又一次成就。出門問問將繼續(xù)AIGC應用場景中深耕,借助公司的領先及先發(fā)優(yōu)勢,持續(xù)探索AIGC的技術與應用邊界,為推動我國生成式人工智能的建設與發(fā)展貢獻力量。

  • 脈脈2024MAX年度職得去公司首推大模型榜單 商湯、智譜、趣丸上榜

    職場社交和社區(qū)平臺脈脈公布了2024MAX年度職得去公司評選獲獎名單。字節(jié)跳動、騰訊、京東、星巴克中國等企業(yè)榮獲年度職得去雇主。求職者也可以發(fā)現(xiàn)更多值得去的好公司,把握職場發(fā)展新機遇。

  • 小馬智行上市成功!全球Robotaxi第二股誕生

    北京時間11月27日,自動駕駛公司小馬智行終于敲響納斯打卡上市的鐘聲,股票代碼“PONY”,成為繼文遠知行赴美上市后的“全球Robotaxi第二股”。2016年小馬智行創(chuàng)立,2018年推出中國首個Robotaxi服務,是中國首家取得北上廣深無人駕駛出行服務許可的自動駕駛公司。面對當前的自動駕駛的窘境,長遠看市場潛力無限,但近期盈利較難,小馬智行想要真正沖破重圍,仍需拭目以待。

  • 這才是真?開源模型!公開「后訓練」一切,性能超越Llama 3.1 Instruct

    在最近關于「ScalingLaw是否撞墻」的討論中,后訓練被寄予厚望。近期發(fā)布的OpenAIo1在數(shù)學、代碼、長程規(guī)劃等問題上取得了顯著提升背后的成功離不開后訓練階段強化學習訓練和推理階段思考計算量的增大。最后必須說明,長達73頁的Tülu3技術報告中還包含大量本文并未提及的細節(jié),感興趣的讀者千萬不要錯過。

  • 全球Robotaxi第一股”文遠知行:助力亞洲新經(jīng)濟建設,成績斐然獲贊譽

    自文遠知行于10月25日在納斯達克成功上市,榮獲“全球Robotaxi第一股”及“全球通用自動駕駛第一股”的稱號以來,不斷有好消息傳出。先是公司榮耀登榜2024年《財富》中國最受贊賞公司榜單,隨后阿聯(lián)酋哈伊馬角酋長一行蒞臨文遠知行廣州總部進行參訪。希望再未來,文遠知行能繼續(xù)攜手各地合作伙伴,加速推進自動駕駛技術在智慧城市中的大規(guī)模商業(yè)化應用,為亞洲乃至全球經(jīng)濟發(fā)展注入新動力,讓無人駕駛技術更好地融入人們的日常生活。

  • ChatGPT兩周年,國產(chǎn)o1大模型們緊追不舍

    ChatGPT誕生的第二年,OpenAI和國內(nèi)的一眾企業(yè)正在試著“拋棄”它。在ScalingLaw被質(zhì)疑能力“見頂”的情況下,今年9月,OpenAI帶著以全新系列命名的模型o1一經(jīng)發(fā)布,“會思考的大模型”再度成為焦點。在如何不過度思考的情況下,平衡大模型的推理進化和用戶對效率的需求?這是楊植麟幾個月前在云棲大會上的提問,這個問題需要留給國內(nèi)大模型廠商們繼續(xù)解決。

  • 格局大了!小米官方開源Home Assistant米家集成:更開放地使用IoT設備

    小米公司在GitHub上正式開源了名為HomeAssistant米家集成”的項目。這是由小米官方提供支持的HomeAssistant集成組件,允許用戶在HomeAssistant這一開源家庭自動化平臺中無縫使用小米的IoT智能設備。更多具體詳細信息可以查看官方文檔。

  • Statter Network(STT):市場更歡迎流通和經(jīng)濟模型公平的項目

    盡管比特幣在減半和各種利好因素推動下突破10萬美元的歷史新高,但就加密行業(yè)言,BTC仍然算不上是最耀眼的,今年最值得追捧的賽道即不是VC幣也是不是以太坊擴容層是各大鏈上meme。其實并不難理解,meme幣之所以受到加密投資者的歡迎主要得益于兩個主要因素:公平發(fā)射和全流通。這種機制不僅能夠確保每個參與者都能公平地獲得STT代幣能夠有效降低能源消耗,提高網(wǎng)絡安全性,并且比較容易被頭部交易所看中。

  • RockAI出席酷+科技峰會,揭示大模型群體智能新趨勢

    11月20日,在酷科技峰會科技創(chuàng)新專場,RockAICEO劉凡平發(fā)表了《大模型與物理空間:從單體智能到群體智能》的主題演講,主要探討了當前大模型面臨的諸多問題、群體智能是未來方向,以及大模型從單體智能到群體智能的發(fā)展路徑。劉凡平首先對大模型現(xiàn)狀與問題進行了分析,主要為現(xiàn)有大模型的局限、現(xiàn)有架構不足。今天的技術峰會匯聚了很多技術的創(chuàng)新者和技術的領先者們,這是一個很好的契機,我們應該鼓勵更多的人去做創(chuàng)新不是follow,這樣中國的通用人工智能發(fā)展才有可能有希望。

  • PITAKA九周年純粹進化,官宣重塑雕像的權利為全球品牌大使

    2024年12月14日,PITAKA以「純粹進化Refining」為主題,于深圳舉辦九周年Openday活動,正式官宣中國著名搖滾樂隊重塑雕像的權利作為PITAKA全球品牌大使,發(fā)布全新品牌聯(lián)名系列,與重塑雕像的權利共同探索「重塑美學」。PITAKA還發(fā)布了由重塑雕像的權利演繹的全新品牌TVC,詮釋品牌發(fā)展至九周年,以自我革新的力量,與回歸純粹的初心。期待與更多有溫度、有共鳴的人,一起探索

熱文

  • 3 天
  • 7天