幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > TOXCL最新資訊  > 正文

TOXCL:用于檢測和解釋隱性有毒言論的統(tǒng)一AI框架

2024-03-28 09:31 · 稿源:站長之家

劃重點:

?? 社交媒體上的毒性言論可能會像野火般蔓延,針對個人和邊緣化群體。

?? 研究人員提出了名為TOXCL的新框架,旨在檢測和解釋隱含毒性言論。

?? TOXCL采用多模塊方法,將問題分解為不同步驟,取得了較好的效果。

站長之家(ChinaZ.com)3月28日 消息:社交媒體上的毒性言論可能會像野火般蔓延,特別是針對個人和邊緣化群體。明顯的仇恨言論相對容易被發(fā)現(xiàn),但隱含毒性——依賴于刻板印象和編碼語言而不是明顯的侮辱——提出了更為棘手的挑戰(zhàn)。如何訓(xùn)練人工智能系統(tǒng)不僅能夠檢測到這種隱晦的毒性,還能解釋為何它是有害的呢?

image.png

新加坡南洋理工大學(xué)、新加坡國立大學(xué)和信息通信研究所的研究人員直面這一挑戰(zhàn),提出了一種名為TOXCL的新框架。與以往將檢測和解釋合并為一個文本生成任務(wù)的系統(tǒng)不同,TOXCL采用了多模塊方法,將問題分解為不同步驟。

首先是目標(biāo)群體生成器——一個文本生成模型,用于識別在給定帖子中可能被針對的少數(shù)群體。接下來是編碼器-解碼器模型,首先使用其編碼器將帖子分類為有毒或無毒。如果標(biāo)記為有毒,解碼器將在目標(biāo)群體信息的幫助下生成為何這種言論有害的解釋。

但這里的聰明之處在于,為了增強編碼器的檢測技能,研究人員還加入了一個強大的教師分類器。利用知識蒸餾技術(shù),這個教師模型在訓(xùn)練過程中將其專業(yè)知識傳遞給編碼器,提高其分類能力。

研究人員還添加了條件解碼約束——一種巧妙的技巧,確保解碼器只為被分類為有毒的帖子生成解釋,消除了矛盾的輸出。

那么,TOXCL的表現(xiàn)如何呢?在兩個主要的隱含毒性基準(zhǔn)測試中,TOXCL的表現(xiàn)超過了最先進(jìn)的基準(zhǔn)線,甚至超過了專注于檢測或解釋的模型。與其他領(lǐng)先系統(tǒng)相比,人類評估員評價其輸出在正確性、流暢性和減少有害性方面更高。

當(dāng)然,仍然有改進(jìn)的空間。該模型有時可能會因為編碼的符號或需要外部知識的縮寫而出現(xiàn)問題。而隱含毒性的主觀性意味著“正確”的解釋往往是多方面的。但總體而言,TOXCL標(biāo)志著朝著能夠識別隱含仇恨并闡明其有害影響的人工智能系統(tǒng)邁出了令人印象深刻的一步。隨著這項技術(shù)的進(jìn)一步發(fā)展,我們還必須應(yīng)對潛在的風(fēng)險,比如強化偏見或產(chǎn)生有毒語言。但通過謹(jǐn)慎使用,它為賦予邊緣化聲音權(quán)力和遏制網(wǎng)絡(luò)上的壓制性言論提供了一條道路。

論文地址:https://arxiv.org/abs/2403.16685v1

項目:https://github.com/nhathoang2002/toxcl

舉報

  • 相關(guān)推薦
  • 華為宣布昇思新增份額達(dá)30%:中國發(fā)展最快開源AI框架

    日前,昇思人工智能框架峰會在北京召開,華為ICT戰(zhàn)略與業(yè)務(wù)發(fā)展部總裁彭紅華發(fā)表致辭。彭紅華表示,經(jīng)歷5年發(fā)展,昇騰硬件伙伴從5家發(fā)展到60多家,基于昇騰開發(fā)的硬件產(chǎn)品已經(jīng)近千款。優(yōu)化自動算子級策略傳播算法,降低80%并行策略配置,支持典型大模型。

  • AI日報:OpenAI推出每月200美元ChatGPT Pro;京東發(fā)布10大AI營銷工具;ComfyUI插件被植入挖礦病

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、谷歌發(fā)布PaliGemma2:AI能讀懂情緒?專家質(zhì)疑其科學(xué)性和倫理風(fēng)險谷歌推出的PaliGemma2AI模型聲稱能通過圖像分析識別人類情緒,引發(fā)了學(xué)術(shù)界和技術(shù)倫理專家的廣泛討論。雖然目前部?

  • AI第一案!GPT寫的代碼竟有后門 程序員被騙1.8萬元

    隨著AI大模型技術(shù)的不斷進(jìn)步,眾多職業(yè)的工作效率得到了顯著提升。在編程領(lǐng)域,這些先進(jìn)的AI工具不僅能夠協(xié)助程序員編寫代碼能高效地解決程序中的BUG,成為開發(fā)者們不可或缺的助手。對于開發(fā)者言,在使用AI輔助工具時應(yīng)當(dāng)保持謹(jǐn)慎態(tài)度,避免盲目信任機器生成的代碼或建議。

  • Jellycat風(fēng)靡,AI寵物崛起,人類用什么抵御孤獨?

    2024年,AI硬件賽道上,擠滿了兩類玩家——AI教育與AI陪伴。教育硬件是AI產(chǎn)品中應(yīng)用成熟、落地頗多的一部分,與大模型結(jié)合的教育硬件賽道已孵化出了AI學(xué)習(xí)機、詞典筆、點讀機等眾多品類。盡管前方仍有技術(shù)困境、質(zhì)量隱憂、情感深度模擬不足等諸多挑戰(zhàn),但不可否認(rèn)的是,這一新興賽道的商家正在不斷地探索、進(jìn)化。

  • 我們再也回不去,沒有AI的世界了 | ChatGPT兩周年。

    2年前的昨天,也就是2022年12月1日,凌晨2點02分。標(biāo)志著AI行業(yè)的一次新生。

  • 慶祝 ChatGPT 誕生兩周年:AI 世界的一次代際飛躍

    人工智能技術(shù)已有數(shù)十年的歷史,推動著從機器人到預(yù)測分析等方方面面的創(chuàng)新。伴隨著ChatGPT的橫空出世,生成式人工智能成為了AI發(fā)展史上的一個里程碑式轉(zhuǎn)折點。通過保持警惕性和前瞻性,我們可確保ChatGPT等工具不斷推動創(chuàng)新,同時防止其被濫用。

  • AI日報:智譜AI發(fā)布AutoGLM升級版;Kimi灰測AI視頻生成功能;SD3.5L新增三大ControlNet功能;ChatGPT誕生兩周年

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、震撼來襲!StabilityAI的SD3.5L新增三大ControlNet功能生圖能力再升級StabilityAI發(fā)布了新版StableDiffusion3.5Large,新增三種ControlNet功能,分別是Blur、Canny和Depth,顯著提升了圖像生成能力。?

  • ChatGPT重磅功能!支持AI Agent玩法,OpenAI加入智能體了

    今天凌晨2點,OpenAI開啟了第11天的直播技術(shù)分享,對ChatGPT的應(yīng)用程序進(jìn)行了重磅升級,支持原生應(yīng)用程序自動化協(xié)作功能。從OpenAI在直播中演示的案例來看,基本上與AIAgent功能差不多,尤其是在編程方面非常好。ChatGPT的協(xié)作功能已經(jīng)在Mac應(yīng)用程序中可以使用了,通過OptionSpace就能快速調(diào)用這個功能,并且占用的內(nèi)存非常小,是一個不錯的自動化協(xié)作助手。

  • 蘋果iOS 18.2 RC發(fā)布:AI功能增加、Siri接入ChatGPT

    蘋果今天向iPhone用戶推送了iOS18.2RC版本系統(tǒng)更新,作為準(zhǔn)正式版,各方面已經(jīng)完善。其中主要是完善了AppleIntelligence的體驗,帶來全新的VisualIntelligence視覺智能功能,這一功能可以幫助用戶進(jìn)行識物,獲取被拍攝物品的更多信息。根據(jù)日前爆料,蘋果確認(rèn)與百度合作,未來作為國行版本的ChatGPT替代者,但目前雙方合作出現(xiàn)了一些問題,上線時間進(jìn)一步推遲。

  • AI Agent再迎一巨頭!谷歌重磅發(fā)力AI Agent ,商用大爆發(fā)!

    上周微軟在“Microsoftignite2024”大會上發(fā)布10多個商用AIAgent后,科技巨頭谷歌也宣布全力推廣商用AIAgent,發(fā)布一系列激勵活動和產(chǎn)品。谷歌云將提供從AIAgent的開發(fā)、部署到應(yīng)用一站式商用生態(tài)。微軟、谷歌、百度、SAP、Salesforce等巨頭都在積極推廣,加上OpenAI即將推出的全新AIAgent產(chǎn)品“Operator”,2025年將成為AIAgent商用爆發(fā)年。

熱文

  • 3 天
  • 7天