幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > Meta最新資訊  > 正文

Meta發(fā)布機(jī)器學(xué)習(xí)模型Voicebox:可從文本生成語(yǔ)音 精通六門語(yǔ)言

2023-06-19 11:50 · 稿源:站長(zhǎng)之家

站長(zhǎng)之家(ChinaZ.com)6月19日 消息:日前,Meta平臺(tái)的人工智能研究部門推出了名為Voicebox機(jī)器學(xué)習(xí)模型,可以將文本轉(zhuǎn)換為語(yǔ)音。

與其他文本轉(zhuǎn)語(yǔ)音模型不同的是,Voicebox能夠執(zhí)行許多未經(jīng)過(guò)訓(xùn)練的任務(wù),包括編輯、去除噪音和樣式轉(zhuǎn)換。

image.png

為訓(xùn)練模型,Meta的研究人員使用了一種名為“ “Flow Matching” ”的方法,該方法比其他生成模型中使用的擴(kuò)散學(xué)習(xí)方法更高效和通用。由于擔(dān)心濫用,Meta并沒有發(fā)布Voicebox,以及將來(lái)可以支持很多應(yīng)用。

Voicebox是一種生成模型,可以在英語(yǔ)、法語(yǔ)、西班牙語(yǔ)、德語(yǔ)、波蘭語(yǔ)和葡萄牙語(yǔ)等六種語(yǔ)言中合成語(yǔ)音。它通過(guò)學(xué)習(xí)將語(yǔ)音音頻樣本映射到其轉(zhuǎn)錄本的模式來(lái)進(jìn)行訓(xùn)練,從而可以用于許多下游任務(wù)。

與特定應(yīng)用程序訓(xùn)練的生成模型不同,Voicebox在訓(xùn)練過(guò)程中使用文本作為訓(xùn)練目標(biāo),訓(xùn)練過(guò)程中,模型會(huì)預(yù)測(cè)語(yǔ)音片段,中間部分被屏蔽,根據(jù)周圍的音頻和文本轉(zhuǎn)錄本進(jìn)行推理學(xué)習(xí),學(xué)習(xí)使用文本生成自然語(yǔ)言語(yǔ)音。

Voicebox的一個(gè)有趣應(yīng)用是語(yǔ)音采樣。該模型可以從單個(gè)文本序列中生成各種語(yǔ)音樣本。這種能力可用于生成合成數(shù)據(jù)來(lái)訓(xùn)練其他語(yǔ)音處理模型?!拔覀兊慕Y(jié)果表明,在Voicebox生成的合成語(yǔ)音上訓(xùn)練的語(yǔ)音識(shí)別模型的性能幾乎與在真實(shí)語(yǔ)音上訓(xùn)練的模型一樣好,錯(cuò)誤率下降了1%,而在以前的文本到語(yǔ)音模型中,合成語(yǔ)音的錯(cuò)誤率下降了45%到70%,”Meta寫道。

不過(guò)Voicebox也有一定限制。由于它已經(jīng)過(guò)有聲讀物數(shù)據(jù)的訓(xùn)練,因此它不能很好地轉(zhuǎn)移到隨意且包含非語(yǔ)言聲音的對(duì)話語(yǔ)音中。它也不能完全控制生成的語(yǔ)音的不同屬性,例如語(yǔ)音風(fēng)格、語(yǔ)氣、情感和聲學(xué)條件。Meta團(tuán)隊(duì)還在探索技術(shù)來(lái)克服這些限制。

官方介紹網(wǎng)址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/

舉報(bào)

  • 相關(guān)推薦
  • Kandinsky1:3.3億參數(shù)強(qiáng)大模型,文本生成逼真圖像

    計(jì)算機(jī)視覺和生成建模領(lǐng)域取得了顯著進(jìn)展,推動(dòng)了文本到圖像生成的不斷發(fā)展。各種生成架構(gòu),包括基于擴(kuò)散的模型,在提高生成圖像的質(zhì)量和多樣性方面發(fā)揮了關(guān)鍵作用。研究人員強(qiáng)調(diào)了解決內(nèi)容問題的需求,建議采取實(shí)時(shí)監(jiān)管或強(qiáng)大的分類器來(lái)減輕不良輸出。

  • Meta發(fā)布Llama 2-Long模型 處理長(zhǎng)文本計(jì)算量需求減少40%

    Meta最新發(fā)布的Llama2-Long模型引領(lǐng)著處理長(zhǎng)文本的革命。這個(gè)模型不僅處理長(zhǎng)文本輸入在不顯著增加計(jì)算需求的情況下,保持了卓越性能。它不僅改進(jìn)了處理長(zhǎng)文本的性能通過(guò)創(chuàng)新策略為該領(lǐng)域注入了新的活力。

  • Meta悄然發(fā)布Llama 2 Long AI模型

    Meta最近發(fā)布了Llama2LongAI模型,該模型在一些任務(wù)上超越了GPT-3.5Turbo和Claude2。通過(guò)改進(jìn)訓(xùn)練方法和編碼技術(shù),Meta的研究人員提高了這個(gè)AI模型的性能,使其能夠更好地處理長(zhǎng)文本和復(fù)雜任務(wù)。強(qiáng)調(diào)了合作的重要性,指出不是每個(gè)企業(yè)都擁有高級(jí)的數(shù)據(jù)工程和數(shù)據(jù)科學(xué)技能,因此需要與具有相關(guān)技術(shù)和深刻了解整個(gè)領(lǐng)域的合作伙伴合作來(lái)解決這一問題。

  • 開源機(jī)器學(xué)習(xí)庫(kù)vLLM 提升大語(yǔ)言模型推理速度

    大語(yǔ)言模型在改變?nèi)藗兊纳詈吐殬I(yè)方面影響越來(lái)越大,因?yàn)樗鼈儗?shí)現(xiàn)了編程助手和通用聊天機(jī)器人等新應(yīng)用。這些應(yīng)用的運(yùn)行需要大量硬件加速器如GPU,操作成本非常高。更大的模型、更復(fù)雜的解碼算法和更長(zhǎng)的序列會(huì)導(dǎo)致更明顯的改進(jìn)。

  • 突破性文本生成視頻方法LVD,利用LLM創(chuàng)建動(dòng)態(tài)場(chǎng)景布局

    針對(duì)從文本提示生成視頻所面臨的挑戰(zhàn),一支研究團(tuán)隊(duì)引入了一種新方法,名為L(zhǎng)LM-GroundedVideoDiffusion。核心問題在于,現(xiàn)有模型難以準(zhǔn)確表示文本提示中描述的復(fù)雜時(shí)空動(dòng)態(tài)。這種方法有潛力在內(nèi)容創(chuàng)作和視頻生成等各種應(yīng)用中開辟新的可能性。

  • 訓(xùn)練成本降低16倍,極限壓縮42倍!開源文本生成圖片模型

    StableDiffusion是目前最強(qiáng)開源文本生成圖片的擴(kuò)散模型之一,但對(duì)于那些沒有A100、H100的中小企業(yè)、個(gè)人開發(fā)者來(lái)說(shuō)有一個(gè)很大缺點(diǎn),需要花費(fèi)高昂的訓(xùn)練成本。為了解決這一痛點(diǎn),Wuerstchen開源模型采用了一種全新的技術(shù)架構(gòu),在保證圖片質(zhì)量的情況下實(shí)現(xiàn)了42倍極限壓縮。Wuerstchen生成圖片展示根據(jù)Wuerstchen展示的案例,該模型對(duì)文本的理解能力非常好,生成的質(zhì)量效果也能媲美StableDiffusion等目前最強(qiáng)開源擴(kuò)散模型。

  • Meta研究人員提出輕量級(jí)微調(diào)方法RA-DIT 以增強(qiáng)語(yǔ)言模型知識(shí)檢索能力

    Meta的研究人員提出了一種名為檢索增強(qiáng)雙指令調(diào)優(yōu)的新型人工智能方法,用于提升語(yǔ)言模型的知識(shí)檢索能力。該方法試圖解決大型語(yǔ)言模型在捕獲較為冷門知識(shí)時(shí)的局限性以及大規(guī)模預(yù)訓(xùn)練的高計(jì)算成本問題。該研究證明了輕量級(jí)指令調(diào)優(yōu)對(duì)檢索增強(qiáng)語(yǔ)言模型的有效性,特別是在涉及大規(guī)模外部知識(shí)源的場(chǎng)景中。

  • Meta開源數(shù)字水印Stable Signature,極大增強(qiáng)生成式AI安全

    全球社交、科技巨頭Meta在官網(wǎng)宣布,開源數(shù)字水印產(chǎn)品StableSignature,并公開論文。StableSignature是由Meta和INRIA聯(lián)合開發(fā)成,可將數(shù)字水印直接嵌入到AI自動(dòng)生成的圖片中,防止其非法用途。通過(guò)StableSignature將數(shù)字水印嵌入到AI圖片中,可極大避免此類事件的發(fā)生。

  • 直接抄Character.AI作業(yè)?Meta發(fā)布虛擬聊天機(jī)器人 Gen AI Personas

    Meta計(jì)劃推出名為「GenAIPersonas」的AI聊天機(jī)器人服務(wù),旨在挽回社交媒體平臺(tái)的用戶流失問題。這款A(yù)I聊天機(jī)器人將具備個(gè)人助理功能,不同性格的聊天機(jī)器人選擇以及幫助用戶更好表達(dá)自己的能力。雖然Meta希望通過(guò)這一產(chǎn)品吸引年輕用戶,但目前的反應(yīng)復(fù)雜,不確定性較大。

  • 研究人員推出深度學(xué)習(xí)模型RECAST 改進(jìn)地震預(yù)測(cè)

    來(lái)自加州伯克利分校、圣克魯斯分校以及慕尼黑工業(yè)大學(xué)的研究人員發(fā)表論文,闡述了一種嶄新的模型,將深度學(xué)習(xí)引入地震預(yù)測(cè)領(lǐng)域。該模型被命名為RECAST,相比自1988年問世以來(lái)改進(jìn)有限的當(dāng)前標(biāo)準(zhǔn)模型ETAS,RECAST可利用更大的數(shù)據(jù)集,提供更高的靈活性。你會(huì)看到它朝著正確的方向發(fā)展。

熱文

  • 3 天
  • 7天