站長之家(ChinaZ.com)3月7日 消息:情感識別技術(shù)在各種場景中都有廣泛的應(yīng)用,如客服機器人根據(jù)客戶語氣調(diào)整策略、智能助手根據(jù)用戶情緒提供建議、情感健康應(yīng)用監(jiān)測用戶情感狀態(tài)。為了支持情感理解,上海交通大學(xué)、阿里巴巴、復(fù)旦大學(xué)和香港中文大學(xué)的研究者聯(lián)合開發(fā)了通用的語音情感表征模型 emotion2vec。
這個模型利用自監(jiān)督學(xué)習(xí)方法在大量無標(biāo)記的公開情感數(shù)據(jù)上進行預(yù)訓(xùn)練,成功學(xué)習(xí)到高度通用的語音情感特征。經(jīng)過多語言和不同場景數(shù)據(jù)集測試,emotion2vec 在多種情感任務(wù)上表現(xiàn)超越了現(xiàn)有技術(shù),為各種情感理解場景提供強大支持,有望提升用戶體驗和滿意度。
基于 emotion2vec,研究者們進一步開發(fā)了語音情感識別基座模型。首先在語音情感識別學(xué)術(shù)數(shù)據(jù)集上對 emotion2vec 進行 fine-tune,然后對15萬小時中英數(shù)據(jù)進行標(biāo)注,篩選文本情感與語音情感相同且置信度高的數(shù)據(jù),再次 fine-tune emotion2vec,得到該版本權(quán)重。相較于以往工作,通過迭代訓(xùn)練和大幅增加數(shù)據(jù)量,這個模型可作為語音情感識別的基座模型,已經(jīng)開源并在 modelscope 上線體驗 demo。
emotion2vec 的總體框架包括句子級別損失、幀級別損失和在線蒸餾。句子級別損失通過均方誤差計算整體全局情緒,包括單嵌入、塊嵌入和全局嵌入三種方法。幀級別損失設(shè)計為逐幀任務(wù),學(xué)習(xí)上下文情緒信息。在線蒸餾是一種自監(jiān)督學(xué)習(xí)策略,學(xué)生網(wǎng)絡(luò)通過反向傳播更新參數(shù),教師網(wǎng)絡(luò)通過指數(shù)移動平均更新參數(shù),促使模型不斷學(xué)習(xí)提升情感特征捕捉和理解能力。
實驗結(jié)果顯示,emotion2vec 在 IEMOCAP 數(shù)據(jù)集上表現(xiàn)最佳,性能超越其他 SSL 預(yù)訓(xùn)練模型和專家模型。在其他主流英語數(shù)據(jù)集上也展現(xiàn)出優(yōu)異泛化能力,證明了其在不同環(huán)境中的先進性能。這表明 emotion2vec 不僅在訓(xùn)練數(shù)據(jù)集上表現(xiàn)優(yōu)秀,還能適應(yīng)不同錄音環(huán)境,為多樣情感任務(wù)提供支持。
emotion2vec通用語音情感表征模型:
https://www.modelscope.cn/models/iic/emotion2vec_base/summary
emotion2vec語音情感識別基座模型在線體驗:
https://www.modelscope.cn/models/iic/emotion2vec_base_finetuned/summary
論文鏈接:
https://arxiv.org/abs/2312.15185
開源代碼倉庫:
https://github.com/ddlBoJack/emotion2vec
(舉報)