站長(zhǎng)之家(ChinaZ.com)6月19日 消息:日前,Meta平臺(tái)的人工智能研究部門推出了名為Voicebox的機(jī)器學(xué)習(xí)模型,可以將文本轉(zhuǎn)換為語(yǔ)音。
與其他文本轉(zhuǎn)語(yǔ)音模型不同的是,Voicebox能夠執(zhí)行許多未經(jīng)過(guò)訓(xùn)練的任務(wù),包括編輯、去除噪音和樣式轉(zhuǎn)換。
為訓(xùn)練模型,Meta的研究人員使用了一種名為“ “Flow Matching” ”的方法,該方法比其他生成模型中使用的擴(kuò)散學(xué)習(xí)方法更高效和通用。由于擔(dān)心濫用,Meta并沒有發(fā)布Voicebox,以及將來(lái)可以支持很多應(yīng)用。
Voicebox是一種生成模型,可以在英語(yǔ)、法語(yǔ)、西班牙語(yǔ)、德語(yǔ)、波蘭語(yǔ)和葡萄牙語(yǔ)等六種語(yǔ)言中合成語(yǔ)音。它通過(guò)學(xué)習(xí)將語(yǔ)音音頻樣本映射到其轉(zhuǎn)錄本的模式來(lái)進(jìn)行訓(xùn)練,從而可以用于許多下游任務(wù)。
與特定應(yīng)用程序訓(xùn)練的生成模型不同,Voicebox在訓(xùn)練過(guò)程中使用文本作為訓(xùn)練目標(biāo),訓(xùn)練過(guò)程中,模型會(huì)預(yù)測(cè)語(yǔ)音片段,中間部分被屏蔽,根據(jù)周圍的音頻和文本轉(zhuǎn)錄本進(jìn)行推理學(xué)習(xí),學(xué)習(xí)使用文本生成自然語(yǔ)言語(yǔ)音。
Voicebox的一個(gè)有趣應(yīng)用是語(yǔ)音采樣。該模型可以從單個(gè)文本序列中生成各種語(yǔ)音樣本。這種能力可用于生成合成數(shù)據(jù)來(lái)訓(xùn)練其他語(yǔ)音處理模型?!拔覀兊慕Y(jié)果表明,在Voicebox生成的合成語(yǔ)音上訓(xùn)練的語(yǔ)音識(shí)別模型的性能幾乎與在真實(shí)語(yǔ)音上訓(xùn)練的模型一樣好,錯(cuò)誤率下降了1%,而在以前的文本到語(yǔ)音模型中,合成語(yǔ)音的錯(cuò)誤率下降了45%到70%,”Meta寫道。
不過(guò)Voicebox也有一定限制。由于它已經(jīng)過(guò)有聲讀物數(shù)據(jù)的訓(xùn)練,因此它不能很好地轉(zhuǎn)移到隨意且包含非語(yǔ)言聲音的對(duì)話語(yǔ)音中。它也不能完全控制生成的語(yǔ)音的不同屬性,例如語(yǔ)音風(fēng)格、語(yǔ)氣、情感和聲學(xué)條件。Meta團(tuán)隊(duì)還在探索技術(shù)來(lái)克服這些限制。
官方介紹網(wǎng)址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
(舉報(bào))