劃重點:
- 研究關(guān)注情感智能對多語言模型的潛在影響,提出了EmotionPrompt方法。
- 使用情感提示顯著提高生成任務(wù)性能,驗證多語言模型具備情感智能潛力。
- 結(jié)果表明多語言模型的情感智能可以通過情感刺激來增強(qiáng),有望改進(jìn)各種應(yīng)用領(lǐng)域。
站長之家(ChinaZ.com)11月10日 消息:微軟研究員最近發(fā)布了名為“EmotionPrompt”的研究成果,旨在增強(qiáng)多語言模型的情感智能。
情感智能被認(rèn)為是人類素質(zhì)的一個關(guān)鍵組成部分,它涵蓋了情感理解、情感處理以及如何利用情感數(shù)據(jù)來指導(dǎo)邏輯和分析過程,如問題解決和行為管理。研究指出,情感控制對于影響人類問題解決能力具有重要作用,因此情感智能在教育和健康等多個領(lǐng)域都有廣泛應(yīng)用。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
這項研究由微軟、威廉與瑪麗大學(xué)、北京師范大學(xué)和香港科技大學(xué)等機(jī)構(gòu)合作進(jìn)行,旨在探究情感智能與復(fù)雜人工智能模型之間的關(guān)聯(lián)。研究表明,新興的大語言模型在多個任務(wù)中表現(xiàn)出色,包括推理、自然語言處理和生成,以及STEM問題解決,這使它們成為實現(xiàn)人工通用智能的有望研究方向之一。
盡管最近的研究表明大語言模型可以識別和處理情感線索,但還不清楚它們是否具備解釋心理情感沖動的潛力,這對于改進(jìn)其問題解決能力至關(guān)重要。研究人員設(shè)計了EmotionPrompt方法,旨在通過情感刺激來探究多語言模型的情感智能。結(jié)果表明,情感提示顯著提高了生成任務(wù)的性能,表現(xiàn)出平均性能、真實性和責(zé)任性能的提升。
他們特別設(shè)計了11條心理短語,作為LLM的后續(xù)提示,引發(fā)情緒反應(yīng)。 在他們的廣泛調(diào)查中使用了確定性任務(wù)和生成性任務(wù),它們一起涵蓋了廣泛的難度級別。他們使用多個法學(xué)碩士(例如 FlanT5-Large、Vicuna、Llama2、BLOOM、ChatGPT 和 GPT-4)對24項指令歸納任務(wù)和21項策劃的 BIG-Bench 任務(wù)進(jìn)行了試驗,所有這些都是確定性的,可以使用通用指標(biāo)。他們對106名參與者進(jìn)行了一項人體研究,以判斷使用基于 GPT-4的普通提示和情感提示生成任務(wù)的質(zhì)量,因為這些活動不適合傳統(tǒng)和自動評估。他們的人類研究表明,情感提示可以顯著提高生成性任務(wù)的績效(績效、誠實度和責(zé)任指標(biāo)平均提高10.9%)。另一方面,標(biāo)準(zhǔn)實驗表明LLM擁有情商,并且可以通過情緒刺激來增強(qiáng)。
此外,研究還分析了情感刺激對最終輸出的影響,結(jié)果顯示大語言模型的梯度受益于情感刺激,從而改善了原始提示的表示。最后,研究還探討了同時使用多個情感線索如何影響性能,發(fā)現(xiàn)這樣做可以顯著提高結(jié)果。
根據(jù)研究結(jié)果,EP02是指令歸納中最好的刺激,比最差的刺激高出6.06%,而 EP06是 BIG-Bench 中最好的刺激。重要的是要記住,任務(wù)復(fù)雜性、任務(wù)類型和使用的指標(biāo)等幾個因素可能會影響刺激的績效。
這項研究為多語言模型的情感智能潛力提供了初步的研究,有望在各種應(yīng)用領(lǐng)域取得進(jìn)展。
論文地址:https://arxiv.org/abs/2307.11760
(舉報)