Meta發(fā)布機(jī)器學(xué)習(xí)模型Voicebox：可從文本生成語(yǔ)音精通六門語(yǔ)言

2023-06-19 11:50 · 稿源：站長(zhǎng)之家

站長(zhǎng)之家（ChinaZ.com）6月19日消息:日前，Meta平臺(tái)的人工智能研究部門推出了名為Voicebox的機(jī)器學(xué)習(xí)模型，可以將文本轉(zhuǎn)換為語(yǔ)音。

與其他文本轉(zhuǎn)語(yǔ)音模型不同的是，Voicebox能夠執(zhí)行許多未經(jīng)過(guò)訓(xùn)練的任務(wù)，包括編輯、去除噪音和樣式轉(zhuǎn)換。

為訓(xùn)練模型，Meta的研究人員使用了一種名為“ “Flow Matching” ”的方法，該方法比其他生成模型中使用的擴(kuò)散學(xué)習(xí)方法更高效和通用。由于擔(dān)心濫用，Meta并沒有發(fā)布Voicebox，以及將來(lái)可以支持很多應(yīng)用。

Voicebox是一種生成模型，可以在英語(yǔ)、法語(yǔ)、西班牙語(yǔ)、德語(yǔ)、波蘭語(yǔ)和葡萄牙語(yǔ)等六種語(yǔ)言中合成語(yǔ)音。它通過(guò)學(xué)習(xí)將語(yǔ)音音頻樣本映射到其轉(zhuǎn)錄本的模式來(lái)進(jìn)行訓(xùn)練，從而可以用于許多下游任務(wù)。

與特定應(yīng)用程序訓(xùn)練的生成模型不同，Voicebox在訓(xùn)練過(guò)程中使用文本作為訓(xùn)練目標(biāo)，訓(xùn)練過(guò)程中，模型會(huì)預(yù)測(cè)語(yǔ)音片段，中間部分被屏蔽，根據(jù)周圍的音頻和文本轉(zhuǎn)錄本進(jìn)行推理學(xué)習(xí)，學(xué)習(xí)使用文本生成自然語(yǔ)言語(yǔ)音。

Voicebox的一個(gè)有趣應(yīng)用是語(yǔ)音采樣。該模型可以從單個(gè)文本序列中生成各種語(yǔ)音樣本。這種能力可用于生成合成數(shù)據(jù)來(lái)訓(xùn)練其他語(yǔ)音處理模型?！拔覀兊慕Y(jié)果表明，在Voicebox生成的合成語(yǔ)音上訓(xùn)練的語(yǔ)音識(shí)別模型的性能幾乎與在真實(shí)語(yǔ)音上訓(xùn)練的模型一樣好，錯(cuò)誤率下降了1%，而在以前的文本到語(yǔ)音模型中，合成語(yǔ)音的錯(cuò)誤率下降了45%到70%，”Meta寫道。

不過(guò)Voicebox也有一定限制。由于它已經(jīng)過(guò)有聲讀物數(shù)據(jù)的訓(xùn)練，因此它不能很好地轉(zhuǎn)移到隨意且包含非語(yǔ)言聲音的對(duì)話語(yǔ)音中。它也不能完全控制生成的語(yǔ)音的不同屬性，例如語(yǔ)音風(fēng)格、語(yǔ)氣、情感和聲學(xué)條件。Meta團(tuán)隊(duì)還在探索技術(shù)來(lái)克服這些限制。

官方介紹網(wǎng)址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

Kandinsky1：3.3億參數(shù)強(qiáng)大模型，文本生成逼真圖像

計(jì)算機(jī)視覺和生成建模領(lǐng)域取得了顯著進(jìn)展，推動(dòng)了文本到圖像生成的不斷發(fā)展。各種生成架構(gòu)，包括基于擴(kuò)散的模型，在提高生成圖像的質(zhì)量和多樣性方面發(fā)揮了關(guān)鍵作用。研究人員強(qiáng)調(diào)了解決內(nèi)容問題的需求，建議采取實(shí)時(shí)監(jiān)管或強(qiáng)大的分類器來(lái)減輕不良輸出。

?Kandinsky1 ?大模型
Meta發(fā)布Llama 2-Long模型處理長(zhǎng)文本計(jì)算量需求減少40%

Meta最新發(fā)布的Llama2-Long模型引領(lǐng)著處理長(zhǎng)文本的革命。這個(gè)模型不僅處理長(zhǎng)文本輸入在不顯著增加計(jì)算需求的情況下，保持了卓越性能。它不僅改進(jìn)了處理長(zhǎng)文本的性能通過(guò)創(chuàng)新策略為該領(lǐng)域注入了新的活力。

?Meta ?AI頭條
Meta悄然發(fā)布Llama 2 Long AI模型

Meta最近發(fā)布了Llama2LongAI模型，該模型在一些任務(wù)上超越了GPT-3.5Turbo和Claude2。通過(guò)改進(jìn)訓(xùn)練方法和編碼技術(shù)，Meta的研究人員提高了這個(gè)AI模型的性能，使其能夠更好地處理長(zhǎng)文本和復(fù)雜任務(wù)。強(qiáng)調(diào)了合作的重要性，指出不是每個(gè)企業(yè)都擁有高級(jí)的數(shù)據(jù)工程和數(shù)據(jù)科學(xué)技能，因此需要與具有相關(guān)技術(shù)和深刻了解整個(gè)領(lǐng)域的合作伙伴合作來(lái)解決這一問題。

?Meta
開源機(jī)器學(xué)習(xí)庫(kù)vLLM 提升大語(yǔ)言模型推理速度

大語(yǔ)言模型在改變?nèi)藗兊纳詈吐殬I(yè)方面影響越來(lái)越大，因?yàn)樗鼈儗?shí)現(xiàn)了編程助手和通用聊天機(jī)器人等新應(yīng)用。這些應(yīng)用的運(yùn)行需要大量硬件加速器如GPU，操作成本非常高。更大的模型、更復(fù)雜的解碼算法和更長(zhǎng)的序列會(huì)導(dǎo)致更明顯的改進(jìn)。

?vLLM
突破性文本生成視頻方法LVD，利用LLM創(chuàng)建動(dòng)態(tài)場(chǎng)景布局

針對(duì)從文本提示生成視頻所面臨的挑戰(zhàn)，一支研究團(tuán)隊(duì)引入了一種新方法，名為L(zhǎng)LM-GroundedVideoDiffusion。核心問題在于，現(xiàn)有模型難以準(zhǔn)確表示文本提示中描述的復(fù)雜時(shí)空動(dòng)態(tài)。這種方法有潛力在內(nèi)容創(chuàng)作和視頻生成等各種應(yīng)用中開辟新的可能性。

?LLM ?LVD ?文本生成視頻
薦訓(xùn)練成本降低16倍，極限壓縮42倍！開源文本生成圖片模型

StableDiffusion是目前最強(qiáng)開源文本生成圖片的擴(kuò)散模型之一，但對(duì)于那些沒有A100、H100的中小企業(yè)、個(gè)人開發(fā)者來(lái)說(shuō)有一個(gè)很大缺點(diǎn)，需要花費(fèi)高昂的訓(xùn)練成本。為了解決這一痛點(diǎn)，Wuerstchen開源模型采用了一種全新的技術(shù)架構(gòu)，在保證圖片質(zhì)量的情況下實(shí)現(xiàn)了42倍極限壓縮。Wuerstchen生成圖片展示根據(jù)Wuerstchen展示的案例，該模型對(duì)文本的理解能力非常好，生成的質(zhì)量效果也能媲美StableDiffusion等目前最強(qiáng)開源擴(kuò)散模型。

?模型
Meta研究人員提出輕量級(jí)微調(diào)方法RA-DIT 以增強(qiáng)語(yǔ)言模型知識(shí)檢索能力

Meta的研究人員提出了一種名為檢索增強(qiáng)雙指令調(diào)優(yōu)的新型人工智能方法，用于提升語(yǔ)言模型的知識(shí)檢索能力。該方法試圖解決大型語(yǔ)言模型在捕獲較為冷門知識(shí)時(shí)的局限性以及大規(guī)模預(yù)訓(xùn)練的高計(jì)算成本問題。該研究證明了輕量級(jí)指令調(diào)優(yōu)對(duì)檢索增強(qiáng)語(yǔ)言模型的有效性，特別是在涉及大規(guī)模外部知識(shí)源的場(chǎng)景中。
薦Meta開源數(shù)字水印Stable Signature，極大增強(qiáng)生成式AI安全

全球社交、科技巨頭Meta在官網(wǎng)宣布，開源數(shù)字水印產(chǎn)品StableSignature，并公開論文。StableSignature是由Meta和INRIA聯(lián)合開發(fā)成，可將數(shù)字水印直接嵌入到AI自動(dòng)生成的圖片中，防止其非法用途。通過(guò)StableSignature將數(shù)字水印嵌入到AI圖片中，可極大避免此類事件的發(fā)生。

?數(shù)字水印
直接抄Character.AI作業(yè)？Meta發(fā)布虛擬聊天機(jī)器人 Gen AI Personas

Meta計(jì)劃推出名為「GenAIPersonas」的AI聊天機(jī)器人服務(wù)，旨在挽回社交媒體平臺(tái)的用戶流失問題。這款A(yù)I聊天機(jī)器人將具備個(gè)人助理功能，不同性格的聊天機(jī)器人選擇以及幫助用戶更好表達(dá)自己的能力。雖然Meta希望通過(guò)這一產(chǎn)品吸引年輕用戶，但目前的反應(yīng)復(fù)雜，不確定性較大。

?Meta
研究人員推出深度學(xué)習(xí)模型RECAST 改進(jìn)地震預(yù)測(cè)

來(lái)自加州伯克利分校、圣克魯斯分校以及慕尼黑工業(yè)大學(xué)的研究人員發(fā)表論文，闡述了一種嶄新的模型，將深度學(xué)習(xí)引入地震預(yù)測(cè)領(lǐng)域。該模型被命名為RECAST，相比自1988年問世以來(lái)改進(jìn)有限的當(dāng)前標(biāo)準(zhǔn)模型ETAS，RECAST可利用更大的數(shù)據(jù)集，提供更高的靈活性。你會(huì)看到它朝著正確的方向發(fā)展。

?RECAST ?學(xué)習(xí)模型 ?地震

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

Meta發(fā)布機(jī)器學(xué)習(xí)模型Voicebox：可從文本生成語(yǔ)音精通六門語(yǔ)言

Kandinsky1：3.3億參數(shù)強(qiáng)大模型，文本生成逼真圖像

Meta發(fā)布Llama 2-Long模型處理長(zhǎng)文本計(jì)算量需求減少40%

Meta悄然發(fā)布Llama 2 Long AI模型

開源機(jī)器學(xué)習(xí)庫(kù)vLLM 提升大語(yǔ)言模型推理速度

突破性文本生成視頻方法LVD，利用LLM創(chuàng)建動(dòng)態(tài)場(chǎng)景布局

薦訓(xùn)練成本降低16倍，極限壓縮42倍！開源文本生成圖片模型

Meta研究人員提出輕量級(jí)微調(diào)方法RA-DIT 以增強(qiáng)語(yǔ)言模型知識(shí)檢索能力

薦Meta開源數(shù)字水印Stable Signature，極大增強(qiáng)生成式AI安全

直接抄Character.AI作業(yè)？Meta發(fā)布虛擬聊天機(jī)器人 Gen AI Personas

研究人員推出深度學(xué)習(xí)模型RECAST 改進(jìn)地震預(yù)測(cè)

熱文

吳柳芳賬號(hào)再次被禁粉絲從600萬(wàn)被清理至4萬(wàn) 抖音：低俗內(nèi)容吸

劉強(qiáng)東提前發(fā)年終獎(jiǎng) 絕大多數(shù)員工可獲5到8個(gè)月年終獎(jiǎng)

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

肯德基中國(guó)漲價(jià) 官方回應(yīng)：運(yùn)營(yíng)成本變化導(dǎo)致

李斌回應(yīng)螢火蟲外觀設(shè)計(jì)：看過(guò)實(shí)車的人都喜歡這個(gè)設(shè)計(jì)

央視曝光未成年人繞開防沉迷只需4元：通過(guò)租用游戲賬號(hào)規(guī)避

小米SU7最新版本OTA推送：正式接入VLM視覺語(yǔ)言大模型

微信可以線上送實(shí)體禮物了：微信小店“藍(lán)包”功能正灰度測(cè)試逐

FF再獲3000萬(wàn)美元新一輪融資加速第二品牌FX戰(zhàn)略推進(jìn)

騰訊QQ 2024年度報(bào)告發(fā)布：以脫口秀形式呈現(xiàn)

吳柳芳賬號(hào)再次被禁粉絲從600萬(wàn)被清理至4萬(wàn) 抖音：低俗內(nèi)容吸

小紅書封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

劉強(qiáng)東提前發(fā)年終獎(jiǎng) 絕大多數(shù)員工可獲5到8個(gè)月年終獎(jiǎng)

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

肯德基中國(guó)漲價(jià) 官方回應(yīng)：運(yùn)營(yíng)成本變化導(dǎo)致

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

李斌回應(yīng)螢火蟲外觀設(shè)計(jì)：看過(guò)實(shí)車的人都喜歡這個(gè)設(shè)計(jì)

小紅書被吐槽無(wú)理由封號(hào) 客服回應(yīng)：未說(shuō)明處罰時(shí)間就是永封

央視曝光未成年人繞開防沉迷只需4元：通過(guò)租用游戲賬號(hào)規(guī)避

站長(zhǎng)商機(jī)

Meta發(fā)布機(jī)器學(xué)習(xí)模型Voicebox：可從文本生成語(yǔ)音 精通六門語(yǔ)言

熱文

站長(zhǎng)商機(jī)

Meta發(fā)布機(jī)器學(xué)習(xí)模型Voicebox：可從文本生成語(yǔ)音精通六門語(yǔ)言