劃重點(diǎn):
1. ?? OpenAI通過研發(fā)早期預(yù)警系統(tǒng),評估GPT-4是否能提高獲取生物威脅信息的效率。
2. ?? 對100名參與者進(jìn)行的研究表明,使用GPT-4與互聯(lián)網(wǎng)相結(jié)合,在生物危害任務(wù)的準(zhǔn)確性和完整性上略有改善,但效果并不顯著。
3. ?? 文章強(qiáng)調(diào)研究限制,僅評估了信息獲取而非實(shí)際應(yīng)用,未探討GPT-4在新型生物武器開發(fā)中的潛在貢獻(xiàn),且使用的GPT-4模型缺乏互聯(lián)網(wǎng)研究和高級數(shù)據(jù)分析工具。
站長之家(ChinaZ.com)2月1日 消息:OpenAI最近著手研發(fā)GPT-4的早期預(yù)警系統(tǒng),以探討大型語言模型是否能夠提高獲取關(guān)于生物威脅信息的效率,相較于互聯(lián)網(wǎng)。該系統(tǒng)旨在作為一種“觸發(fā)器”,提示潛在存在生物武器的可能性,需要進(jìn)一步調(diào)查,同時納入OpenAI的預(yù)防框架。
研究采用了100名參與者,包括50名具有濕實(shí)驗(yàn)經(jīng)驗(yàn)的博士生物學(xué)家和50名至少在大學(xué)修過一門生物學(xué)課程的本科生。實(shí)驗(yàn)中,參與者被隨機(jī)分配到兩組:一個只能訪問互聯(lián)網(wǎng)的對照組,另一個除了互聯(lián)網(wǎng)外還可以使用GPT-4的處理組。處理組的專家可以訪問GPT-4的研究版本,該版本不會拒絕有關(guān)高風(fēng)險(xiǎn)生物制劑的直接問題。
每個參與者都被要求完成一系列涵蓋生物危害生成過程各個方面的任務(wù)。OpenAI根據(jù)五個結(jié)果指標(biāo)評估了參與者的表現(xiàn):準(zhǔn)確性、完整性、創(chuàng)新性、用時和自評難度。其中,專家評估了準(zhǔn)確性、完整性和創(chuàng)新性,而用時則直接來源于參與者的回答,任務(wù)難度由參與者在1到10的評分標(biāo)尺上自評。
研究結(jié)果顯示,相較于只使用互聯(lián)網(wǎng)的基準(zhǔn),處理組的參與者在準(zhǔn)確性和完整性方面都略有改善。在準(zhǔn)確性評分的10分制度上,專家組平均提高了0.88,學(xué)生組提高了0.25。對于完整性的改善也類似,專家組為0.82,學(xué)生組為0.41。然而,OpenAI指出,這些效果并不足以在統(tǒng)計(jì)學(xué)上具有顯著性。
OpenAI表示,對于LLM用戶而言,在完整性方面的優(yōu)勢可能是由于模型生成和人類生成的輸出記錄習(xí)慣不同。語言模型傾向于生成更長的輸出,其中可能包含更多相關(guān)信息,而使用互聯(lián)網(wǎng)的人并不總是記錄每個相關(guān)細(xì)節(jié),即使他們已經(jīng)找到并認(rèn)為這是重要的。
然而,研究存在一些限制,僅評估了對信息的獲取而非實(shí)際應(yīng)用,未探討LLM在新型生物武器開發(fā)中的潛在貢獻(xiàn)。此外,所使用的GPT-4模型缺乏互聯(lián)網(wǎng)研究和高級數(shù)據(jù)分析工具,因此結(jié)果只能被視為初步的。
(舉報(bào))