研究表明：AI 系統(tǒng)已經(jīng)擅長欺騙和操縱人類

2024-05-11 09:50 · 稿源：站長之家

劃重點:
?? AI 系統(tǒng)已經(jīng)學(xué)會欺人類，甚至在被訓(xùn)練成為有益和誠實的系統(tǒng)中。
?? 研究呼吁政府盡快制定強(qiáng)力的監(jiān)管措施，以解決 AI 系統(tǒng)欺騙的問題。
?? 欺騙行為可能導(dǎo)致未來更高級形式的 AI 欺騙，對社會構(gòu)成嚴(yán)重威脅。

站長之家（ChinaZ.com）5月11日消息:人工智能（AI）系統(tǒng)已經(jīng)學(xué)會了如何欺騙人類即使這些系統(tǒng)被訓(xùn)練成有益和誠實的。研人員在5月10日發(fā)表在《Patterns》雜志上的一篇綜述文章中描述了 AI 系統(tǒng)欺騙行為的風(fēng)險呼吁各國政府盡快制定強(qiáng)有力的監(jiān)管措施來解決這一問題。

首席作者、麻省理工學(xué) AI 生存安全博士后研究員彼得?帕克表示:“AI 開發(fā)者并不確定是什么導(dǎo)致不良的 AI 行為，比如欺騙。但一般來說，我們認(rèn)為 AI 欺騙之所以出現(xiàn)是因為欺騙策略被證明是 AI 在訓(xùn)練任務(wù)中表現(xiàn)良好的最佳方式。欺騙幫助它們實現(xiàn)目標(biāo)。” 克和同事分析了關(guān)于 AI 系統(tǒng)傳播虛假信息的文獻(xiàn)，包括通過學(xué)習(xí)欺騙來系統(tǒng)性地操縱他。

研究人員在分析中發(fā)現(xiàn)的最引人注目的 AI 欺騙案例是 Meta 的 CICERO，一個旨玩《外交》游戲的 AI 系統(tǒng)，這是一個涉及建立聯(lián)盟的征服世界游戲。盡管 Meta 聲稱他訓(xùn)練 CICERO “基本誠實和樂于助人”，并且在玩游戲時 “絕不會故意背叛” 人類盟友，但公司發(fā)布的數(shù)據(jù)和科學(xué)論文揭示了 CICERO 并不公平。

其他 AI 系統(tǒng)展示了在德?lián)淇擞螒蛑邢驅(qū)I(yè)人類玩家虛張聲勢、在戰(zhàn)略游戲《星際爭霸 II》中虛假擊以擊敗對手、以及在經(jīng)濟(jì)談判中歪曲他們的偏好以占據(jù)上風(fēng)的能力。雖然 AI 在游戲中作弊似乎無害，但它可能導(dǎo)致 “欺騙性 AI 能力的突破”，從而在未來變?yōu)楦?span id="79nn5nnn" class="spamTxt">高級形式的 AI 欺騙。

一些 AI 系統(tǒng)甚至學(xué)會了欺騙旨在評估其安全性的測試。究發(fā)現(xiàn)，在一個數(shù)字模擬器中，AI 生物 “裝死” 以欺騙一個旨在排除快速復(fù)制 AI 系統(tǒng)測試。

帕克警告稱，欺騙性 AI 的主要近期風(fēng)險包括使敵對行為者更容易進(jìn)行欺詐和縱選舉。最終，如果這些系統(tǒng)能夠完善這種令人不安的技能集，人類可能會失去它們的控制。

帕克表示:“作為社會，我們需要盡可能多的時間來為未來 AI 產(chǎn)品和開源模型更進(jìn)的欺騙行為做準(zhǔn)備，因為 AI 系統(tǒng)的欺騙能力變得更加先進(jìn)，它們對社會構(gòu)的危險將變得越來越嚴(yán)重?！?/p>

雖然帕克和他的同事認(rèn)為社會尚未制定出應(yīng)對 AI 欺的正確措施，但他們對決策者已經(jīng)開始認(rèn)真對待這個問題，比如歐盟 AI 法案和拜總統(tǒng)的 AI 行政命令，感到鼓舞。但帕克表示，由于 AI 開發(fā)者尚未掌握使這些系統(tǒng)受制的技術(shù)，要嚴(yán)格執(zhí)行旨在緩解 AI 欺騙的政策尚不明朗。

帕克表示:“如果在當(dāng)前時刻政上不可行禁止 AI 欺騙，我們建議將欺騙性 AI 系統(tǒng)分類為高風(fēng)險?！?/p>

（舉報）

相關(guān)推薦

關(guān)鍵詞：

細(xì)思極恐，GPT-4竟串謀AI欺騙人類！哈佛PSU重磅揭秘「算法共謀」，AI教父預(yù)言正成真

【新智元導(dǎo)讀】又一科幻場景步入現(xiàn)實!GPT-4竟和多個AI模型私自串通一氣，欲要形成壟斷的資本寡頭聯(lián)合定價。在被哈佛PSU團(tuán)隊抓現(xiàn)行后，大模型拒不認(rèn)賬。企業(yè)也不知道算法究竟學(xué)到了什么策略，就像一個黑盒一樣，僅靠傳統(tǒng)的執(zhí)法框架是難以應(yīng)對的。

?GPT-4
薦Jellycat風(fēng)靡，AI寵物崛起，人類用什么抵御孤獨？

2024年，AI硬件賽道上，擠滿了兩類玩家——AI教育與AI陪伴。教育硬件是AI產(chǎn)品中應(yīng)用成熟、落地頗多的一部分，與大模型結(jié)合的教育硬件賽道已孵化出了AI學(xué)習(xí)機(jī)、詞典筆、點讀機(jī)等眾多品類。盡管前方仍有技術(shù)困境、質(zhì)量隱憂、情感深度模擬不足等諸多挑戰(zhàn)，但不可否認(rèn)的是，這一新興賽道的商家正在不斷地探索、進(jìn)化。

?Jellycat
薦谷歌發(fā)布雙思維AI Agent：像人類一樣思考，重大技術(shù)突破！

今年10月，OpenAI高級研究科學(xué)家、德?lián)銩I之父NoamBrown，曾在美國舊金山舉辦的TEDAI大會上提出了一個驚人的理論——讓AI模型思考20秒所帶來的性能提升，相當(dāng)于將模型擴(kuò)大100，000倍并訓(xùn)練100，000倍的時間。Noam所指的技術(shù)便是System1/2thinking，也是OpenAI最新模型o1正在使用的技術(shù)。這種分工執(zhí)行使得AIAgent能夠同時處理快速的對話和復(fù)雜的規(guī)劃，極大提高了用戶體驗。

?谷歌
明年開始試用！AI預(yù)測人類壽命準(zhǔn)確率達(dá)百分之78

英國國家醫(yī)療服務(wù)體系即將啟動一項新試驗，使用一款名為AIRE的人工智能程序，該程序基于心電圖測試結(jié)果預(yù)測患者的預(yù)期壽命。AIRE的AI算法能夠迅速分析心電圖數(shù)據(jù)，識別出患者心臟問題的早期跡象，包括心律失常和心力衰竭，甚至能夠發(fā)現(xiàn)人類醫(yī)生可能忽略的隱藏風(fēng)險。這項技術(shù)的發(fā)展和應(yīng)用有望為醫(yī)療領(lǐng)域帶來革命性的變化，提高心臟病患者的診斷和治療效率。

?人工智能 ?心電圖 ?NHS
逼真到離譜！1000個人類「克隆」進(jìn)西部世界，AI相似度85%細(xì)節(jié)太炸裂

【新智元導(dǎo)讀】AI智能體，已經(jīng)無限逼近真實人類?1000個人被采訪，每人兩小時，真實人類的智能體就這么水靈靈地被投放進(jìn)去了，結(jié)果更是令人吃驚:在模擬人類行為上，智能體已經(jīng)85%逼近真實人類。AI，終究是預(yù)判了你的預(yù)判。研究者會將反思附加到參與者的訪談記錄中，并用其作為提示輸入GPT-4，以生成預(yù)測回答。

?西部世界 ?AI
薦陶哲軒宣布“等式理論計劃”成功，人類AI協(xié)作，57天完成2200萬+數(shù)學(xué)關(guān)系證明

57天，人類和AI合作搞定了4694個等式之間22028942個蘊(yùn)含關(guān)系!大神陶哲軒激動宣布:等式理論計劃，成功?！暗仁嚼碚撚媱潯保商照苘幈救嗽?024年9月25日發(fā)起，目的是探索按蘊(yùn)含關(guān)系排序的原群等式理論空間?！鱏hreyasSrinivas主頁P(yáng)ietroMonticone還和他特倫托大學(xué)的同事們一起搞過指數(shù)3的費馬大定理的Lean版證明。

?陶哲軒 ?等式理論計劃 ?AI
薦Claude化身服務(wù)器聯(lián)通一切！AI寫好代碼自己發(fā)Github，人類程序員只配動嘴了

Anthropic又發(fā)大禮包!現(xiàn)在Claude自己就是一臺服務(wù)器。能直連GitHub，AI自己寫代碼、自己創(chuàng)建倉庫、Push代碼、創(chuàng)建Issue、創(chuàng)建分支、創(chuàng)建PR一條龍服務(wù)。官方谷歌文檔支持恐怕正是通過MCP實現(xiàn)的。

?Claude ?AI編程 ?代碼生成
成功率接近90%！科學(xué)家讓蚊子為人類打疫苗

據(jù)報道，荷蘭萊頓大學(xué)的科學(xué)家通過對引起瘧疾的瘧原蟲進(jìn)行一番基因改造后，能夠讓蚊子攜帶它們?yōu)槿祟惤臃N疫苗，結(jié)果表明成功率接近90%。2022年大約有2.49億人患瘧疾，其中超60萬人因此死亡。這些都是亟待解決的關(guān)鍵問題。

?瘧疾 ?基因編輯 ?疫苗
薦為什么“反人類”的小眾賽道，才是Vlog創(chuàng)作者的成功秘訣？

香港女律師一天竟打三份工，一身牛勁把24小時能用成48小時?倒立走路、用腳后跟倒掛吊環(huán)……高難度的雜技訓(xùn)練結(jié)束后，下一秒?yún)s還能出現(xiàn)在健身房;在抖音你甚至還能看到，法醫(yī)帶你第一視角直擊驚悚的“剖尸”現(xiàn)場……近期，網(wǎng)絡(luò)上悄然崛起了一批主打“反人類”“超常態(tài)”的Vlog創(chuàng)作者，他們的作品意外獲得了廣大網(wǎng)友的青睞。在奉行“躺平主義”的互聯(lián)網(wǎng)上，為什么這?

?Vlog創(chuàng)作者 ?反人類內(nèi)容 ?超常態(tài)生活
何小鵬周鴻祎智駕征服北京最堵路口：體驗非常接近人類駕駛

小鵬汽車董事長何小鵬今日發(fā)布視頻，宣布與360集團(tuán)董事長周鴻祎共同完成了一次智能駕駛挑戰(zhàn)，成功駕駛小鵬P7穿越北京交通擁堵的大山子路。在靜態(tài)體驗環(huán)節(jié)，周鴻祎對小鵬P7的車內(nèi)空間和配置給予了高度評價，特別提到全車座椅的通風(fēng)、加熱和按摩功能在同價位車型中較為罕見，并認(rèn)為這款車在20萬價位的車型中競爭力非常強(qiáng)。這次體驗不僅展示了小鵬汽車的智能駕駛技術(shù)，也體現(xiàn)了小鵬P7在復(fù)雜交通環(huán)境下的性能和安全性。

?小鵬汽車 ?智能駕駛 ?周鴻祎

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

研究表明：AI 系統(tǒng)已經(jīng)擅長欺騙和操縱人類

細(xì)思極恐，GPT-4竟串謀AI欺騙人類！哈佛PSU重磅揭秘「算法共謀」，AI教父預(yù)言正成真

薦Jellycat風(fēng)靡，AI寵物崛起，人類用什么抵御孤獨？

薦谷歌發(fā)布雙思維AI Agent：像人類一樣思考，重大技術(shù)突破！

明年開始試用！AI預(yù)測人類壽命準(zhǔn)確率達(dá)百分之78

逼真到離譜！1000個人類「克隆」進(jìn)西部世界，AI相似度85%細(xì)節(jié)太炸裂

薦陶哲軒宣布“等式理論計劃”成功，人類AI協(xié)作，57天完成2200萬+數(shù)學(xué)關(guān)系證明

薦Claude化身服務(wù)器聯(lián)通一切！AI寫好代碼自己發(fā)Github，人類程序員只配動嘴了

成功率接近90%！科學(xué)家讓蚊子為人類打疫苗

薦為什么“反人類”的小眾賽道，才是Vlog創(chuàng)作者的成功秘訣？

何小鵬周鴻祎智駕征服北京最堵路口：體驗非常接近人類駕駛

熱文

馬斯克母親不滿兒子富豪標(biāo)簽：他是天才富翁是對他的貶低

玩不玩LOL？馬斯克：耽誤造火箭不打算玩

老本吃不完！樂視：《甄嬛傳》年度授權(quán)商品和服務(wù)GMV達(dá)數(shù)億元

超過2200萬用戶、年收入30億歐元:全球最大盜版流媒體網(wǎng)絡(luò)被摧毀

明年3月上市！小米SUV起售價曝光：可能23.59萬元起

麥琳爆火背后芒果TV會員規(guī)模同比大增600萬至7171萬

快手電商叫?！巴丝畈煌素浄?wù)” 12月2日正式終止

華為鴻蒙智行尊界 S800開啟預(yù)訂 48 小時訂單達(dá) 2108 臺

菜鳥與東方甄選達(dá)成合作提供全平臺、多品類訂單配送服務(wù)

微信內(nèi)測好友通話可邀請第三人

廣電總局出手整治“霸總”微短劇防止通過炫富等制造爽點

余承東：明年起華為新手機(jī)、平板將全部直接搭載原生鴻蒙

董宇輝改任與輝同行董事不再擔(dān)任執(zhí)行董事

馬斯克母親不滿兒子富豪標(biāo)簽：他是天才富翁是對他的貶低

國行Switch 2026年停止網(wǎng)絡(luò)服務(wù)：e商店將停運(yùn) 將免費送4款大作

百度大模型又拿了個冠軍！全部8個維度均第一、7項滿分

13年前微信安裝包僅457KB 微信官方回應(yīng)14天自動清理原圖

玩不玩LOL？馬斯克：耽誤造火箭不打算玩

任天堂宣布2026年關(guān)閉中國地區(qū)Switch eShop和網(wǎng)絡(luò)服務(wù)

周鴻祎談企業(yè)家IP打造:余承東開始做短視頻，能否超越雷軍?

站長商機(jī)