TOXCL：用于檢測和解釋隱性有毒言論的統(tǒng)一AI框架

2024-03-28 09:31 · 稿源：站長之家

劃重點:
?? 社交媒體上的毒性言論可能會像野火般蔓延，針對個人和邊緣化群體。
?? 研究人員提出了名為TOXCL的新框架，旨在檢測和解釋隱含毒性言論。
?? TOXCL采用多模塊方法，將問題分解為不同步驟，取得了較好的效果。

站長之家（ChinaZ.com）3月28日消息:社交媒體上的毒性言論可能會像野火般蔓延，特別是針對個人和邊緣化群體。明顯的仇恨言論相對容易被發(fā)現(xiàn)，但隱含毒性——依賴于刻板印象和編碼語言而不是明顯的侮辱——提出了更為棘手的挑戰(zhàn)。如何訓(xùn)練人工智能系統(tǒng)不僅能夠檢測到這種隱晦的毒性，還能解釋為何它是有害的呢?

新加坡南洋理工大學(xué)、新加坡國立大學(xué)和信息通信研究所的研究人員直面這一挑戰(zhàn)，提出了一種名為TOXCL的新框架。與以往將檢測和解釋合并為一個文本生成任務(wù)的系統(tǒng)不同，TOXCL采用了多模塊方法，將問題分解為不同步驟。

首先是目標(biāo)群體生成器——一個文本生成模型，用于識別在給定帖子中可能被針對的少數(shù)群體。接下來是編碼器-解碼器模型，首先使用其編碼器將帖子分類為有毒或無毒。如果標(biāo)記為有毒，解碼器將在目標(biāo)群體信息的幫助下生成為何這種言論有害的解釋。

但這里的聰明之處在于，為了增強編碼器的檢測技能，研究人員還加入了一個強大的教師分類器。利用知識蒸餾技術(shù)，這個教師模型在訓(xùn)練過程中將其專業(yè)知識傳遞給編碼器，提高其分類能力。

研究人員還添加了條件解碼約束——一種巧妙的技巧，確保解碼器只為被分類為有毒的帖子生成解釋，消除了矛盾的輸出。

那么，TOXCL的表現(xiàn)如何呢?在兩個主要的隱含毒性基準(zhǔn)測試中，TOXCL的表現(xiàn)超過了最先進(jìn)的基準(zhǔn)線，甚至超過了專注于檢測或解釋的模型。與其他領(lǐng)先系統(tǒng)相比，人類評估員評價其輸出在正確性、流暢性和減少有害性方面更高。

當(dāng)然，仍然有改進(jìn)的空間。該模型有時可能會因為編碼的符號或需要外部知識的縮寫而出現(xiàn)問題。而隱含毒性的主觀性意味著“正確”的解釋往往是多方面的。但總體而言，TOXCL標(biāo)志著朝著能夠識別隱含仇恨并闡明其有害影響的人工智能系統(tǒng)邁出了令人印象深刻的一步。隨著這項技術(shù)的進(jìn)一步發(fā)展，我們還必須應(yīng)對潛在的風(fēng)險，比如強化偏見或產(chǎn)生有毒語言。但通過謹(jǐn)慎使用，它為賦予邊緣化聲音權(quán)力和遏制網(wǎng)絡(luò)上的壓制性言論提供了一條道路。

論文地址:https://arxiv.org/abs/2403.16685v1

項目:https://github.com/nhathoang2002/toxcl

（舉報）

相關(guān)推薦

關(guān)鍵詞：

華為宣布昇思新增份額達(dá)30%：中國發(fā)展最快開源AI框架

日前，昇思人工智能框架峰會在北京召開，華為ICT戰(zhàn)略與業(yè)務(wù)發(fā)展部總裁彭紅華發(fā)表致辭。彭紅華表示，經(jīng)歷5年發(fā)展，昇騰硬件伙伴從5家發(fā)展到60多家，基于昇騰開發(fā)的硬件產(chǎn)品已經(jīng)近千款。優(yōu)化自動算子級策略傳播算法，降低80%并行策略配置，支持典型大模型。

?昇思人工智能 ?華為ICT戰(zhàn)略 ?開源AI框架
薦AI日報：OpenAI推出每月200美元ChatGPT Pro;京東發(fā)布10大AI營銷工具;ComfyUI插件被植入挖礦病毒

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、谷歌發(fā)布PaliGemma2:AI能讀懂情緒?專家質(zhì)疑其科學(xué)性和倫理風(fēng)險谷歌推出的PaliGemma2AI模型聲稱能通過圖像分析識別人類情緒，引發(fā)了學(xué)術(shù)界和技術(shù)倫理專家的廣泛討論。雖然目前部?

?谷歌 ?PaliGemma2 ?情緒識別
AI投毒第一案！GPT寫的代碼竟有后門程序員被騙1.8萬元

隨著AI大模型技術(shù)的不斷進(jìn)步，眾多職業(yè)的工作效率得到了顯著提升。在編程領(lǐng)域，這些先進(jìn)的AI工具不僅能夠協(xié)助程序員編寫代碼能高效地解決程序中的BUG，成為開發(fā)者們不可或缺的助手。對于開發(fā)者言，在使用AI輔助工具時應(yīng)當(dāng)保持謹(jǐn)慎態(tài)度，避免盲目信任機器生成的代碼或建議。

?AI大模型 ?編程效率 ?安全性風(fēng)險
薦Jellycat風(fēng)靡，AI寵物崛起，人類用什么抵御孤獨？

2024年，AI硬件賽道上，擠滿了兩類玩家——AI教育與AI陪伴。教育硬件是AI產(chǎn)品中應(yīng)用成熟、落地頗多的一部分，與大模型結(jié)合的教育硬件賽道已孵化出了AI學(xué)習(xí)機、詞典筆、點讀機等眾多品類。盡管前方仍有技術(shù)困境、質(zhì)量隱憂、情感深度模擬不足等諸多挑戰(zhàn)，但不可否認(rèn)的是，這一新興賽道的商家正在不斷地探索、進(jìn)化。

?Jellycat
我們再也回不去，沒有AI的世界了 | ChatGPT兩周年。

2年前的昨天，也就是2022年12月1日，凌晨2點02分。標(biāo)志著AI行業(yè)的一次新生。

?ChatGPT
慶祝 ChatGPT 誕生兩周年：AI 世界的一次代際飛躍

人工智能技術(shù)已有數(shù)十年的歷史，推動著從機器人到預(yù)測分析等方方面面的創(chuàng)新。伴隨著ChatGPT的橫空出世，生成式人工智能成為了AI發(fā)展史上的一個里程碑式轉(zhuǎn)折點。通過保持警惕性和前瞻性，我們可確保ChatGPT等工具不斷推動創(chuàng)新，同時防止其被濫用。

?人工智能 ?生成式人工智能 ?ChatGPT
薦AI日報：智譜AI發(fā)布AutoGLM升級版；Kimi灰測AI視頻生成功能；SD3.5L新增三大ControlNet功能；ChatGPT誕生兩周年

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、震撼來襲!StabilityAI的SD3.5L新增三大ControlNet功能生圖能力再升級StabilityAI發(fā)布了新版StableDiffusion3.5Large，新增三種ControlNet功能，分別是Blur、Canny和Depth，顯著提升了圖像生成能力。?

?Stability ?AI ?Stable
薦ChatGPT重磅功能！支持AI Agent玩法，OpenAI加入智能體了

今天凌晨2點，OpenAI開啟了第11天的直播技術(shù)分享，對ChatGPT的應(yīng)用程序進(jìn)行了重磅升級，支持原生應(yīng)用程序自動化協(xié)作功能。從OpenAI在直播中演示的案例來看，基本上與AIAgent功能差不多，尤其是在編程方面非常好。ChatGPT的協(xié)作功能已經(jīng)在Mac應(yīng)用程序中可以使用了，通過OptionSpace就能快速調(diào)用這個功能，并且占用的內(nèi)存非常小，是一個不錯的自動化協(xié)作助手。

?OpenAI ?ChatGPT ?技術(shù)分享
蘋果iOS 18.2 RC發(fā)布：AI功能增加、Siri接入ChatGPT

蘋果今天向iPhone用戶推送了iOS18.2RC版本系統(tǒng)更新，作為準(zhǔn)正式版，各方面已經(jīng)完善。其中主要是完善了AppleIntelligence的體驗，帶來全新的VisualIntelligence視覺智能功能，這一功能可以幫助用戶進(jìn)行識物，獲取被拍攝物品的更多信息。根據(jù)日前爆料，蘋果確認(rèn)與百度合作，未來作為國行版本的ChatGPT替代者，但目前雙方合作出現(xiàn)了一些問題，上線時間進(jìn)一步推遲。

?iOS ?18.2更新 ?Visual
薦AI Agent再迎一巨頭！谷歌重磅發(fā)力AI Agent ，商用大爆發(fā)！

上周微軟在“Microsoftignite2024”大會上發(fā)布10多個商用AIAgent后，科技巨頭谷歌也宣布全力推廣商用AIAgent，發(fā)布一系列激勵活動和產(chǎn)品。谷歌云將提供從AIAgent的開發(fā)、部署到應(yīng)用一站式商用生態(tài)。微軟、谷歌、百度、SAP、Salesforce等巨頭都在積極推廣，加上OpenAI即將推出的全新AIAgent產(chǎn)品“Operator”，2025年將成為AIAgent商用爆發(fā)年。

?谷歌

熱文

3 天
7天

站長商機

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

TOXCL：用于檢測和解釋隱性有毒言論的統(tǒng)一AI框架

華為宣布昇思新增份額達(dá)30%：中國發(fā)展最快開源AI框架

薦AI日報：OpenAI推出每月200美元ChatGPT Pro;京東發(fā)布10大AI營銷工具;ComfyUI插件被植入挖礦病毒

AI投毒第一案！GPT寫的代碼竟有后門程序員被騙1.8萬元

薦Jellycat風(fēng)靡，AI寵物崛起，人類用什么抵御孤獨？

我們再也回不去，沒有AI的世界了 | ChatGPT兩周年。

慶祝 ChatGPT 誕生兩周年：AI 世界的一次代際飛躍

薦AI日報：智譜AI發(fā)布AutoGLM升級版；Kimi灰測AI視頻生成功能；SD3.5L新增三大ControlNet功能；ChatGPT誕生兩周年

薦ChatGPT重磅功能！支持AI Agent玩法，OpenAI加入智能體了

蘋果iOS 18.2 RC發(fā)布：AI功能增加、Siri接入ChatGPT

薦AI Agent再迎一巨頭！谷歌重磅發(fā)力AI Agent ，商用大爆發(fā)！

熱文

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

京東發(fā)布年終獎通知部分員工年前可收到年終獎

雷軍：小米是北方車廠 SU7研發(fā)之初就要做冬季電車?yán)m(xù)航之王

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號規(guī)避

李斌回應(yīng)螢火蟲外觀設(shè)計：看過實車的人都喜歡這個設(shè)計

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

沒網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無網(wǎng)通12月底升級6km級通話范圍

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛上我

FF再獲3000萬美元新一輪融資加速第二品牌FX戰(zhàn)略推進(jìn)

美團(tuán)：冬至期間將針對餃子等應(yīng)時食品訂單提供“超時保護(hù)”

英偉達(dá)AI芯片最大買家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請嘗試這幾種方法

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

小紅書封號上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

極越員工萬字怒懟ceo：公關(guān)總監(jiān)徐繼業(yè)怒罵員工蒼蠅

京東發(fā)布年終獎通知部分員工年前可收到年終獎

馬斯克將推出X Mail電子郵箱服務(wù)

極越員工善后方案已出爐：員工獲“N+1”賠償由百度吉利出資

未成年人成部分博主流量密碼抖音治理涉“網(wǎng)紅兒童”違規(guī)內(nèi)容

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒有上市計劃

站長商機