站長(zhǎng)之家(ChinaZ.com)4月26日 消息:MyShell TTS 開(kāi)發(fā)的 OpenVoice 是一項(xiàng)創(chuàng)新的聲音克隆技術(shù),它能夠通過(guò)僅使用一小段參考發(fā)言者的音頻片段來(lái)復(fù)制其聲音,并生成多種語(yǔ)言的語(yǔ)音。
目前,MyShell TTS 已經(jīng)推出了全新的OpenVoice V2版本。這個(gè)版本能夠直接支持英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、中文、日語(yǔ)以及韓語(yǔ),并且顯著提高了音頻輸出的質(zhì)量。OpenVoice V2擁有復(fù)制任意聲音的能力,能以多種語(yǔ)言進(jìn)行語(yǔ)音輸出,并具備情感和口音的控制功能。它不但可以準(zhǔn)確模仿特定的聲音色彩,還允許對(duì)聲音的風(fēng)格,包括情感、口音、節(jié)奏、停頓及語(yǔ)調(diào)等進(jìn)行細(xì)致調(diào)整。
主要功能:
準(zhǔn)確的音色克隆: OpenVoice 能夠精確地克隆參考音色,并在多種語(yǔ)言和口音中生成語(yǔ)音。
靈活的聲音風(fēng)格控制: 用戶可以對(duì)聲音的情緒、口音、節(jié)奏、停頓和語(yǔ)調(diào)進(jìn)行詳細(xì)調(diào)整,實(shí)現(xiàn)個(gè)性化的聲音輸出。
零樣本跨語(yǔ)言聲音克隆: 即使某些語(yǔ)言未在訓(xùn)練集中出現(xiàn),OpenVoice 也能實(shí)現(xiàn)聲音復(fù)制。
高效的計(jì)算性能: 相比于市場(chǎng)上現(xiàn)有的商業(yè)API,OpenVoice 在保持高性能的同時(shí),計(jì)算成本大大降低。
OpenVoice V2新特性:
更好的音頻質(zhì)量: 采用新的訓(xùn)練策略提升音頻質(zhì)量。
原生多語(yǔ)言支持: 原生支持英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、中文、日語(yǔ)和韓語(yǔ)。
集成 MeloTTS: V2版本引入了 MeloTTS 技術(shù),增強(qiáng)了聲音的自然度和表現(xiàn)力。
免費(fèi)商業(yè)使用: 自2024年4月起,V1和V2版本均以 MIT 許可證發(fā)布,支持商業(yè)和研究用途的免費(fèi)使用。
技術(shù)方法:
聲音樣式和語(yǔ)言的解耦設(shè)計(jì): OpenVoice 的設(shè)計(jì)哲學(xué)是將聲音的不同特性進(jìn)行解耦,使得可以獨(dú)立控制各個(gè)參數(shù),提高操作的靈活性和推斷速度。
基礎(chǔ)發(fā)音者 TTS 模型與音色轉(zhuǎn)換器: 包括允許對(duì)風(fēng)格參數(shù)進(jìn)行控制的基礎(chǔ)發(fā)音者 TTS 模型,以及采用編碼器-解碼器結(jié)構(gòu)的音色轉(zhuǎn)換器。
訓(xùn)練策略和數(shù)據(jù)處理: 在訓(xùn)練過(guò)程中,使用了大量的多語(yǔ)種、多風(fēng)格的音頻樣本,并采用特定的損失函數(shù)確保在保留風(fēng)格的同時(shí)去除或轉(zhuǎn)換音色。
官網(wǎng):https://research.myshell.ai/open-voice
項(xiàng)目地址:https://top.aibase.com/tool/openvoice
創(chuàng)建自己的語(yǔ)音機(jī)器人:https://myshell.ai/
(舉報(bào))