11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買(mǎi)1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來(lái)騰訊云選購(gòu)吧!
阿里巴巴在Qwen-Audio基礎(chǔ)之上,開(kāi)源了最新語(yǔ)音模型Qwen2-Audio。Qwen2-Audio一共有基礎(chǔ)和指令微調(diào)兩個(gè)版本,支持使用語(yǔ)音向音頻模型進(jìn)行提問(wèn)并識(shí)別內(nèi)容以及語(yǔ)音分析。在SER和VSC測(cè)試中,Qwen2-Audio同樣以顯著成績(jī)勝出。
生成式AI初創(chuàng)公司aiOla在官網(wǎng)開(kāi)源了最新語(yǔ)音模型Whisper-Medusa,推理效率比OpenAI開(kāi)源的Whisper快50%。aiOla在Whisper的架構(gòu)之上進(jìn)行了修改采用了“多頭注意力”機(jī)制的并行計(jì)算方法,允許模型在每個(gè)推理步驟中預(yù)測(cè)多個(gè)token,同時(shí)不會(huì)損失性能和識(shí)別準(zhǔn)確率。aiOla表示,未來(lái)會(huì)將Whisper-Medusa的多注意力機(jī)制擴(kuò)展至20個(gè)頭,其推理效率將再次獲得大幅度提升。
AssemblyAI最新研究成果展示了他們的Universal-1模型在多語(yǔ)言環(huán)境中的表現(xiàn),該模型在準(zhǔn)確性和魯棒性方面均取得了行業(yè)領(lǐng)先地位。Universal-1比WhisperLarge-v3更準(zhǔn)確,比f(wàn)astWhisper更快,38秒可以處理60分鐘音頻。值得一提的是,非開(kāi)源,僅提供API調(diào)用。
WhisperKit是一個(gè)基于Whisper項(xiàng)目的推理工具包,由Argmax公司推出。它允許在iOS和macOS應(yīng)用程序中進(jìn)行語(yǔ)音識(shí)別和轉(zhuǎn)錄。欲了解更多信息,請(qǐng)?jiān)L問(wèn)WhisperKit官方網(wǎng)站。
WhisperKit是一個(gè)專為自動(dòng)語(yǔ)音識(shí)別模型壓縮與優(yōu)化設(shè)計(jì)的強(qiáng)大工具。它不僅支持對(duì)模型進(jìn)行壓縮和優(yōu)化提供詳細(xì)的性能評(píng)估數(shù)據(jù)。通過(guò)WhisperKit官網(wǎng),您可以詳細(xì)了解該工具的功能和應(yīng)用,并體驗(yàn)其卓越的自動(dòng)語(yǔ)音識(shí)別模型優(yōu)化能力。
**劃重點(diǎn):**1.🎙?實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本:利用OpenAIWhisperLive實(shí)現(xiàn)即時(shí)將口語(yǔ)轉(zhuǎn)換為文本。2.🧠大型語(yǔ)言模型整合:集成Mistral大型語(yǔ)言模型,提升對(duì)轉(zhuǎn)錄文本的理解和上下文把握。-推理加速:利用torch.compile對(duì)WhisperSpeech進(jìn)行優(yōu)化,通過(guò)即時(shí)編譯PyTorch代碼,進(jìn)一步加快了處理速度。
由于對(duì)Whisper推理在生產(chǎn)中的迅速增長(zhǎng)需求,Argmax公司決定將其作為首個(gè)項(xiàng)目,并于宣布將WhisperKit項(xiàng)目以MIT許可證的形式開(kāi)源,進(jìn)入beta測(cè)試階段。WhisperKit是一個(gè)用于實(shí)現(xiàn)在設(shè)備上進(jìn)行語(yǔ)音推理的開(kāi)源工具,旨在通過(guò)最小的摩擦和最大的性能提高,使開(kāi)發(fā)者能夠輕松改進(jìn)和部署快速、免費(fèi)且?guī)缀鯚o(wú)錯(cuò)誤的翻譯和轉(zhuǎn)錄服務(wù)。在穩(wěn)定版發(fā)布之前,WhisperKit計(jì)劃引入性能報(bào)告創(chuàng)建、異步批處理預(yù)測(cè)、watchOS示例應(yīng)用以及Metal-based推理引擎等功能。
WhisperFusion是一款基于WhisperLive和WhisperSpeech功能的產(chǎn)品,通過(guò)在實(shí)時(shí)語(yǔ)音轉(zhuǎn)文字流程中集成Mistral大型語(yǔ)言模型來(lái)實(shí)現(xiàn)與AI的無(wú)縫對(duì)話。Whisper和LLM均經(jīng)過(guò)TensorRT引擎優(yōu)化,以最大程度提升性能和實(shí)時(shí)處理能力。torch.compile:WhisperSpeech使用torch.compile來(lái)加速推斷,通過(guò)將PyTorch代碼即時(shí)編譯為優(yōu)化內(nèi)核,使PyTorch代碼運(yùn)行更快。
WhisperSpeech是一款完全開(kāi)源的文本轉(zhuǎn)語(yǔ)音模型,由Collabora和Lion在Juwels超級(jí)計(jì)算機(jī)上訓(xùn)練。它支持多種語(yǔ)言和多種形式的輸入,包括Node.js、Python、Elixir、HTTP、Cog和Docker。想要了解更多信息并開(kāi)始體驗(yàn)WhisperSpeech的功能,請(qǐng)?jiān)L問(wèn)官方網(wǎng)站:點(diǎn)擊前往WhisperSpeech官網(wǎng)。
WhisperSpeech是一個(gè)開(kāi)源的文本到語(yǔ)音系統(tǒng),其最大的亮點(diǎn)是通過(guò)對(duì)OpenAI的Whisper語(yǔ)音識(shí)別模型進(jìn)行反向工程,實(shí)現(xiàn)了接收文本輸入,并利用修改后的Whisper模型生成聽(tīng)起來(lái)自然的語(yǔ)音輸出。WhisperSpeech的語(yǔ)音輸出在發(fā)音準(zhǔn)確性和自然度方面都非常出色。-訓(xùn)練多語(yǔ)言模型:開(kāi)發(fā)支持多語(yǔ)言的文本到語(yǔ)音模型。