10月24日,趣丸科技宣布與香港中文大學(深圳)聯(lián)合研發(fā)的語音大模型“MaskGCT”正式在Amphion系統(tǒng)中開源,面向全球用戶開放使用。區(qū)別于傳統(tǒng)TTS模型,該模型采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式,在聲音克隆、跨語種合成、語音控制等任務中展現(xiàn)出卓越效果。
據(jù)介紹,MaskGCT在三個TTS基準數(shù)據(jù)集上都達到了SOTA效果,超過當前先進的同類模型。
論文鏈接:https://arxiv.org/abs/2409.00750
交互Demo:https://huggingface.co/spaces/amphion/maskgct
樣例展示:https://maskgct.github.io/
Amphion地址:https://github.com/open-mmlab/Amphion
模型下載:https://huggingface.co/amphion/maskgct
項目地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
公測版地址(趣丸千音): voice.funnycp.com
模型能力全球領先,躋身首先梯隊
相較于現(xiàn)有的TTS大模型,MaskGCT在語音的相似度、質(zhì)量和穩(wěn)定性上進一步突破,尤其在語音相似度方面處于相對領先地位。顯著特點如下:
1、秒級超逼真的聲音克隆:提供3秒音頻樣本即可復刻人類、動漫、“耳邊細語”等任意音色,且能完整復刻語調(diào)、風格和情感。
2、更精細可控的語音生成:可靈活調(diào)整生成語音的長度、語速和情緒,支持通過編輯文本編輯語音,并保持韻律、音色等方面的極度一致。
3、高質(zhì)量多語種語音數(shù)據(jù)集:訓練于香港中文大學(深圳)和趣丸科技等機構聯(lián)合推出的10萬小時數(shù)據(jù)集Emilia,是全球比較大且最為多樣的高質(zhì)量多語種語音數(shù)據(jù)集之一,精通中英日韓法德6種語言的跨語種合成。
優(yōu)秀的模型離不開先進的團隊。MaskGCT研發(fā)團隊在語音領域擁有深厚的研究積累和原創(chuàng)性成果。該工作由港中大(深圳)-趣丸科技人工智能聯(lián)合實驗室成員完成,這主要依托趣丸科技十年深耕音頻技術領域和億級高質(zhì)量語音用戶的服務經(jīng)驗,以及香港中文大學(深圳)國際知名水平的師資隊伍。
技術范式創(chuàng)新,突破大模型能力邊界
MaskGCT(Masked Generative Codec Transformer)是一個大規(guī)模的零樣本TTS模型,采用非自回歸掩碼生成Transformer,無需文本與語音的對齊監(jiān)督和音素級持續(xù)時間預測。其技術突破性在于采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式。實驗表明,MaskGCT在語音質(zhì)量、相似度和可理解性方面優(yōu)于當前先進的TTS模型,并且在模型規(guī)模和訓練數(shù)據(jù)量增加時表現(xiàn)更佳,同時能夠控制生成語音的總時長。MaskGCT已在香港中文大學(深圳)與上海人工智能實驗室聯(lián)合開發(fā)的開源系統(tǒng)Amphion發(fā)布。
據(jù)介紹,MaskGCT是一個兩階段模型。在首先階段,模型使用文本預測從語音自監(jiān)督學習(SSL)模型中提取的語義標記;在第二階段,模型基于這些語義標記預測聲學標記。MaskGCT遵循掩碼預測學習范式。在訓練過程中,MaskGCT學習根據(jù)給定的條件和提示預測掩碼的語義或聲學標記。在推理過程中,模型以并行方式生成指定長度的標記。通過對10萬小時的自然語音進行實驗,結果表明MaskGCT在質(zhì)量、相似度和可理解性方面優(yōu)于當前先進的零樣本TTS系統(tǒng)。
科研成果走出實驗室,應用前景廣闊
MaskGCT的誕生,再次證明即使在算力受限的情況下,中國AI企業(yè)仍有勇氣和底氣追趕并超越西方同行。
然而,除了保持技術領先,大模型的更大價值在于走出實驗室,賦能千行百業(yè)惠及千家萬戶,成為驅動經(jīng)濟增長的新質(zhì)生產(chǎn)力。
目前,MaskGCT在短劇出海、數(shù)字人、智能助手、有聲讀物、輔助教育等領域擁有豐富的應用場景。為了加快落地應用,在安全合規(guī)下,趣丸科技打造了多語種速譯智能視聽平臺“趣丸千音”。一鍵上傳視頻即可快速翻譯成多語種版本,并實現(xiàn)字幕修復與翻譯、語音翻譯、唇音同步等功能。該產(chǎn)品進一步革新視頻翻譯制作流程,大幅降低過往昂貴的人工翻譯成本和冗長的制作周期,成為影視、游戲、短劇等內(nèi)容出海的理想選擇平臺。
《2024年短劇出海白皮書》顯示,2023年海外市場規(guī)模高達650億美元,約為國內(nèi)市場的12倍,短劇出海成為藍海新賽道。以“趣丸千音”為代表的產(chǎn)品的出現(xiàn),將加速國產(chǎn)短劇“走出去”,進一步推動中華文化在全球不同語境下的傳播。
(推廣)