劃重點:
?? 社交媒體上的毒性言論可能會像野火般蔓延,針對個人和邊緣化群體。
?? 研究人員提出了名為TOXCL的新框架,旨在檢測和解釋隱含毒性言論。
?? TOXCL采用多模塊方法,將問題分解為不同步驟,取得了較好的效果。
站長之家(ChinaZ.com)3月28日 消息:社交媒體上的毒性言論可能會像野火般蔓延,特別是針對個人和邊緣化群體。明顯的仇恨言論相對容易被發(fā)現(xiàn),但隱含毒性——依賴于刻板印象和編碼語言而不是明顯的侮辱——提出了更為棘手的挑戰(zhàn)。如何訓(xùn)練人工智能系統(tǒng)不僅能夠檢測到這種隱晦的毒性,還能解釋為何它是有害的呢?
新加坡南洋理工大學(xué)、新加坡國立大學(xué)和信息通信研究所的研究人員直面這一挑戰(zhàn),提出了一種名為TOXCL的新框架。與以往將檢測和解釋合并為一個文本生成任務(wù)的系統(tǒng)不同,TOXCL采用了多模塊方法,將問題分解為不同步驟。
首先是目標(biāo)群體生成器——一個文本生成模型,用于識別在給定帖子中可能被針對的少數(shù)群體。接下來是編碼器-解碼器模型,首先使用其編碼器將帖子分類為有毒或無毒。如果標(biāo)記為有毒,解碼器將在目標(biāo)群體信息的幫助下生成為何這種言論有害的解釋。
但這里的聰明之處在于,為了增強編碼器的檢測技能,研究人員還加入了一個強大的教師分類器。利用知識蒸餾技術(shù),這個教師模型在訓(xùn)練過程中將其專業(yè)知識傳遞給編碼器,提高其分類能力。
研究人員還添加了條件解碼約束——一種巧妙的技巧,確保解碼器只為被分類為有毒的帖子生成解釋,消除了矛盾的輸出。
那么,TOXCL的表現(xiàn)如何呢?在兩個主要的隱含毒性基準(zhǔn)測試中,TOXCL的表現(xiàn)超過了最先進(jìn)的基準(zhǔn)線,甚至超過了專注于檢測或解釋的模型。與其他領(lǐng)先系統(tǒng)相比,人類評估員評價其輸出在正確性、流暢性和減少有害性方面更高。
當(dāng)然,仍然有改進(jìn)的空間。該模型有時可能會因為編碼的符號或需要外部知識的縮寫而出現(xiàn)問題。而隱含毒性的主觀性意味著“正確”的解釋往往是多方面的。但總體而言,TOXCL標(biāo)志著朝著能夠識別隱含仇恨并闡明其有害影響的人工智能系統(tǒng)邁出了令人印象深刻的一步。隨著這項技術(shù)的進(jìn)一步發(fā)展,我們還必須應(yīng)對潛在的風(fēng)險,比如強化偏見或產(chǎn)生有毒語言。但通過謹(jǐn)慎使用,它為賦予邊緣化聲音權(quán)力和遏制網(wǎng)絡(luò)上的壓制性言論提供了一條道路。
論文地址:https://arxiv.org/abs/2403.16685v1
項目:https://github.com/nhathoang2002/toxcl
(舉報)