剛剛，OpenAI開源SimpleQA！輕松檢測、校準大模型能力

2024-10-31 08:51 · 稿源： ? AIGC開放社區(qū)公眾號

聲明:本文來自于微信公眾號 AIGC開放社區(qū),授權站長之家轉載發(fā)布。

今天凌晨，OpenAI開源了最新基準測試集SimpleQA，可以幫助開發(fā)者輕松檢測、校準大模型的真實性能力。

目前，很多大模型會出現(xiàn)一本正經(jīng)胡說八道的問題，例如，你提問NBA歷史上得分最多的是誰，它回答是邁克爾喬丹，實際上是勒布朗詹姆斯。包括OpenAI自己發(fā)布的GPT-4o、o1-preview、o1mini等前沿模型都有這些“幻覺”難題。

所以，SimpleQA對于開發(fā)者來說，可以精準測試大模型能否輸出正確的答案，并對模型的說謊能力進行校準然后進行大幅度優(yōu)化完善模型能力。

開源地址:https://github.com/openai/simple-evals

有網(wǎng)友表示，看了SimpleQA的測試數(shù)據(jù)才發(fā)現(xiàn)，o1-mini和o1-preview的性能差距這么大，o1-mini連GPT-4o都打不過。

令人驚訝的是，SimpleQA 被有意設計用來挑戰(zhàn)像 GPT-4這樣的高級模型，其中只包括至少有一次模型嘗試失敗的問題。這種對抗性的基準測試方法感覺像是一種大膽的轉變，旨在揭示模型的局限性并推動模型的發(fā)展。

多整開源這是好事。別忘了你名字的初衷啊~

這很有趣，會看到更多的模型被測試，以及它們與我在提供的文本上進行的虛構/幻覺基準測試結果的比較。

很想看看o1模型的完整版測試。

完全同意事實性在人工智能中的重要性。SimpleQA 的引入可以顯著提升我們對語言模型在這一領域表現(xiàn)的理解。這是一項及時的舉措，準確的數(shù)據(jù)對于信任人工智能系統(tǒng)至關重要。期待看到這個基準測試的影響。

這很重要，因為確保大模型的事實性對于防止錯誤信息的傳播至關重要，而 SimpleQA 提供了一種標準化的方法來評估和改進模型可靠性的這一關鍵方面。

很棒，重要的更新!

SimpleQA簡單介紹

在數(shù)據(jù)收集階段，SimpleQA的問題參考答案由兩名獨立的 AI 訓練員確定，并且訓練員在創(chuàng)建問題時被要求提供支持答案的網(wǎng)頁鏈接，以確保答案有可靠的依據(jù)。

例如，對于 “誰是蘋果公司的創(chuàng)始人之一” 這樣常識性問題，訓練員會根據(jù)歷史資料和官方信息確定答案為史蒂夫喬布斯等，并附上如蘋果公司官方網(wǎng)站等相關鏈接作為證據(jù)。

同時，問題的設計使得預測答案易于評估，只允許有一個明確且無可爭議的答案，避免了模糊性和歧義性。比如 “哪一年 iPhone 首次發(fā)布”，答案明確為“2007年”，而不是一個范圍或模糊的表述。

SimpleQA的評估問題和答案都非常簡短，這使得運行速度快且操作簡單。在評估模型回答時，通過 OpenAI API進行評分也十分迅速。數(shù)據(jù)集中包含4326個問題，能夠在一定程度上降低不同次運行之間的方差，使評估結果更加穩(wěn)定可靠。

例如，在對多個模型進行測試時，不會因為數(shù)據(jù)集本身的不穩(wěn)定性而導致結果出現(xiàn)較大波動，從而能夠更準確地比較模型之間的性能差異。

SimpleQA的評估集非常多元化。涵蓋歷史、科學技術、藝術、地理、電視節(jié)目等多個領域。這種多樣性使得評估結果更具普遍性和代表性，能夠全面地檢驗模型在不同知識領域的事實性回答能力。

另一個好處是它的校準測量功能。通過詢問模型對其答案的信心，研究者可以了解模型是否知道它們知道什么，這是一個很重要的校準現(xiàn)象。如果一個模型能夠準確地評估自己的信心水平，那么它就是一個校準良好的模型。

OpenAI通過SimpleQA對GPT-4o、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet等前沿模型進行了綜合測試。結果顯示，較大模型通常具有更高的性能，但即使是前沿模型在SimpleQA 上的表現(xiàn)也并非完美。

例如，GPT -4o 在回答一些問題時能夠給出較高比例的正確答案，但仍有部分錯誤回答和未嘗試回答的情況。同時，通過測量模型的校準情況，發(fā)現(xiàn)模型雖然有一定的信心概念，但普遍存在高估自己信心的問題，模型的信心水平與實際回答的準確性之間存在差距。

（舉報）

相關推薦
大家在看

關鍵詞：

【騰訊云】11.11云上盛惠！云服務器首年1.8折起，買1年送3個月！

11.11云上盛惠！海量產(chǎn)品 · 輕松上云！云服務器首年1.8折起，買1年送3個月！超值優(yōu)惠，性能穩(wěn)定，讓您的云端之旅更加暢享?？靵眚v訊云選購吧！

Docker容器鏡像
去看看

Docker容器鏡像 60元/15天

爆款產(chǎn)品組合購
去看看

爆款產(chǎn)品組合購低至1元

騰訊云x NVIDIA加速計劃
去看看

騰訊云x NVIDIA加速計劃最高獲贈10萬元扶持基金

2核2G云服務器
去看看

2核2G云服務器 112元/1年

查看更多相關信息>>

騰訊云 12-20

廣告
一句廢話就把OpenAI o1干崩了？大模型的推理能力還真挺脆弱的。

就在一個月前，OpenAI悄悄發(fā)布了o1，o1的推理能力是有目共睹的。我當時用了幾個很難很難的測試樣例去試驗了一下，很多模型見了都會犯怵，開始胡說八道。

?OpenAI ?OpenAIo1
薦剛剛，OpenAI發(fā)布sCM提升50倍效率，擴散模型重大技術突破！

OpenAI發(fā)布了全新擴散模型方法sCM，僅需2步就能生成高質(zhì)量圖片、3D模型等實現(xiàn)50倍時鐘加速，尤其是在高分辨率任務上相當出色。通過sCM訓練了一個15億參數(shù)的模型，在單個A100GPU上無需任何推理優(yōu)化0.11秒內(nèi)就能生成內(nèi)容。把這個技術用在Sora，應該就快來了吧?目前，OpenAI已經(jīng)分享了該論文方法，是由兩位華人提出來的。

?OpenAI ?擴散模型 ?高質(zhì)量圖片
薦剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的

今年5月，OpenAI首次展示了GPT-4o的語音功能，無論是對話的響應速度還是與真人聲音的相似度，都頗為驚艷。特別是它允許用戶隨時打斷，充分感知到用戶的情緒并給予回應。由人類創(chuàng)造的強大AI將真正使大眾受益智譜也是推動這一里程碑的重要參與者。

?AI
OpenAI重磅開源！AI Agent大爆發(fā)，狂攬6000顆星！

OpenAI終于開放了一次，罕見地開源了多功能協(xié)同AIAgent——Swarm。與普通AIAgent不同的是，Swarm可以同時創(chuàng)建多個智能體互相協(xié)同工作來完成特定任務，包括客戶服務、銷售支持和售后服務等，同時每個智能體都配備了一套專屬工具集以更高效的完成任務。OpenAI才剛開源Swarm，但在Github上非?；鸨呀?jīng)突破6000顆星還在快速增長中，有興趣的小伙伴趕緊試試去吧。

?OpenAI
薦剛剛，OpenAI開放ChatGPT Windows版本，可像Office那樣使用了

今天凌晨OpenAI宣布向所有ChatGPTPlus、Enterprise、Team和Edu用戶，提供Windows桌面應用早期版本。用戶可在微軟的應用商店中下載，安裝完成后通過AltSpace快捷鍵就能迅速啟用，提供文件分析、搜索對話、文本生成等功能，使用體驗相當絲滑和Office一樣。系統(tǒng)要求Windows1017763.0以上版本。

?ChatGPT
薦開源版OpenAI再出「神作」，小模型吊打Llama 3！Ministral系列問世，邊緣AI革命開啟

【新智元導讀】Mistral7B誕生一周年之際，法國AI初創(chuàng)公司Mistral再次連發(fā)兩個輕量級模型Ministral3B和Ministral8B，性能趕超Llama38B。Mistral7B僅僅發(fā)布一周年，法國AI初創(chuàng)小模型「lesMinistraux」就打敗它了。對于Mistral也是如此，若要持續(xù)打造優(yōu)秀的模型，只有這一種選擇。

?OpenAI ?Llama3 ?Ministral
薦OpenAI o1太貴？那就自己做一個，純提示方法讓普通LLM進化出復雜推理能力

一篇文章在推特上爆火，利用純提示方法讓普通LLM搖身一變，成為具備復雜推理能力的OpenAIo1。OpenAIo1正式登場。組織可以使用較小的開源模型來替代GPT-4o等成本較高的模型，用于需要復雜推理能力來解決的任務。

?OpenAI ?人工智能 ?復雜推理
薦豪擲千億美元布局AI，微軟不止有OpenAI

微軟和OpenAI無疑是大洋彼岸最具看點的一對商業(yè)組合。人們在一年前暢想的AGI、SuperApp并未如期出現(xiàn)訓練所需的資金基本都來自于大廠輸血。但退一步講，這個答案或許并不重要。

?微軟 ?OpenAI
全新開源王者！NVIDIA悄然推出70B AI模型：力壓GPT-4o、僅次于OpenAI o1

今天，NVIDIA悄然開源了名為Nemotron-70B的AI模型。這款模型一經(jīng)發(fā)布便在多個基準測試中超越了包括OpenAI的GPT-4和Anthropic的Claude3.5Sonnet在內(nèi)的140多個開閉源模型，僅次于OpenAI的最新模型o1。英偉達還開源了Nemotron的訓練數(shù)據(jù)集HelpSteer2，包括如下：構建了21362個提示響應，使模型更符合人類偏好，也更有幫助、更符合事實、更連貫，并且可以根據(jù)復雜度和詳細度進行定制；構建了20324個用于訓練的提示響應，1038個用于驗證。

?NVIDIA ?Nemotron-70B ?開源AI模型
薦比GPT-4強100倍！OpenAI將在12月發(fā)布新模型—獵戶座

知名科技媒體theverge消息，OpenAI將在ChatGPT發(fā)布兩周年之際12月左右，推出傳說中的大模型——Orion。Orion會使用o1模型生成的合成數(shù)據(jù)進行預訓練會使用一些其他類型的模型混合在一起使用，性能比GPT-4強100倍非常接近AGI。情緒價值在這一刻猶如洪水猛獸，變得一發(fā)不可收拾。

?OpenAI ?ChatGPT ?Orion大模型

CogVideoX1.5-5B-SAT:開源視頻生成模型，支持10秒視頻和更高分辨率。

CogVideoX1.5-5B-SAT是由清華大學知識工程與數(shù)據(jù)挖掘團隊開發(fā)的開源視頻生成模型，是CogVideoX模型的升級版。該模型支持生成10秒視頻，并支持更高分辨率的視頻生成。模型包含Transformer、VAE和Text Encoder等模塊，能夠根據(jù)文本描述生成視頻內(nèi)容。CogVideoX1.5-5B-SAT模型以其強大的視頻生成能力和高分辨率支持，為視頻內(nèi)容創(chuàng)作者提供了一個強大的工具，尤其在教育、娛樂和商業(yè)領域有著廣泛的應用前景。

視頻生成文本到視頻高分辨率

Ask The Post AI:華盛頓郵報的AI問答產(chǎn)品

Ask The Post AI是華盛頓郵報推出的一款基于人工智能的產(chǎn)品，它允許讀者就自2016年以來發(fā)布的所有報道提出問題。該產(chǎn)品利用生成式AI技術和對話格式，依托華盛頓郵報長期以來基于事實、深入報道的新聞傳統(tǒng)，以新的方式取悅并通知讀者。Ask The Post AI通過機器學習團隊對Climate Answers工具的數(shù)據(jù)進行提煉，優(yōu)化了如何檢索和匹配自2016年以來新聞室發(fā)布的所有報道中與用戶查詢相關的相關文章。

AI 問答新聞

Mistral Moderation API:AI內(nèi)容審核服務，保護下游部署安全。

Mistral Moderation API是Mistral AI推出的內(nèi)容審核服務，旨在幫助用戶檢測和過濾不受歡迎的文本內(nèi)容。該API是Le Chat中使用的審核服務的同一技術，現(xiàn)在對外開放，以便用戶可以根據(jù)特定的應用和安全標準定制和使用這一工具。該模型是一個基于LLM（大型語言模型）的分類器，能夠?qū)⑽谋据斎敕诸惖?個預定義的類別中。Mistral AI的這一API支持原生多語言，特別針對阿拉伯語、中文、英語、法語、德語、意大利語、日語、韓語、葡萄牙語、俄語和西班牙語進行了訓練。該API的主要優(yōu)點包括提高審核的可擴展性和魯棒性，以及通過技術文檔提供的詳細政策定義和啟動指南，幫助用戶有效實施系統(tǒng)級的安全防護。

內(nèi)容審核 AI 多語言支持

Medio AI:AI編輯工具，助力企業(yè)視頻營銷本地化。

Medio AI是一個為企業(yè)提供AI編輯工具的平臺，專注于視頻翻譯和視頻配音，幫助企業(yè)無畏全球擴張，實現(xiàn)視頻營銷的本地化。產(chǎn)品背景信息顯示，Medio AI旨在幫助企業(yè)探索更多海外市場，通過AI技術提升視頻編輯效率，增強產(chǎn)品在國際市場上的競爭力。產(chǎn)品的主要優(yōu)點包括無需下載、在線使用、一鍵去除視頻水印、產(chǎn)品翻譯、視頻配音等。價格方面，Medio AI提供免費試用，并根據(jù)不同的功能需求提供不同的付費版本。

AI編輯視頻營銷本地化

PodExtra AI:釋放播客的力量，用AI提升播客收聽體驗

PodExtra AI是一款先進的AI工具，專為播客收聽和知識獲取設計。它通過生成播客內(nèi)容的摘要、思維導圖、大綱、亮點和要點，幫助用戶快速把握播客的核心內(nèi)容。產(chǎn)品背景信息顯示，播客愛好者平均每周消費超過8集，全球有超過400萬的節(jié)目可供選擇。PodExtra AI通過AI技術，使得用戶能夠快速瀏覽內(nèi)容，節(jié)省時間，提高效率。產(chǎn)品定位于幫助用戶從海量播客內(nèi)容中快速獲取有價值的信息，特別適合時間緊張但希望從播客中獲取知識的人群。

播客 AI 知識管理

語鯨:，智能語言處理平臺

語鯨是一個專注于語言處理的平臺，它利用先進的自然語言處理技術，為用戶提供文本分析、翻譯、校對等服務。產(chǎn)品背景信息顯示，語鯨旨在幫助用戶提高寫作效率和質(zhì)量，特別是在多語言環(huán)境中。語鯨的價格定位尚未明確，但考慮到其提供的服務，可能會有免費試用和付費版本。

自然語言處理文本分析翻譯

CR-Mentor:AI驅(qū)動的代碼審查導師，提升代碼質(zhì)量和審查效率。

CR-Mentor AI CodeReview Mentor是一個基于人工智能的代碼審查工具，它通過積累的最佳實踐知識庫和大型語言模型（LLM）分析，為主流編程語言提供智能代碼審查。該產(chǎn)品支持自定義的代碼審查標準，能夠為單個文件代碼變更提供專業(yè)評分和改進建議，并通過LLM生成全面的審查報告，包括代碼走查、變更描述和時序圖。它與GitHub工作流程深度集成，實現(xiàn)自動化代碼審查，支持多語言反饋，幫助整個團隊提升代碼質(zhì)量和審查效率。

代碼審查人工智能 GitHub集成

Srcbook:開源、自托管、AI驅(qū)動的應用構建器。

Srcbook是一個開源、自托管的AI驅(qū)動應用構建器，它允許用戶快速構建和部署各種應用程序。產(chǎn)品背景信息顯示，Srcbook旨在提供一個平臺，讓開發(fā)者和非技術用戶都能夠輕松地構建應用程序，從而提高生產(chǎn)力和創(chuàng)新能力。它支持多種應用場景，如項目管理工具、音樂發(fā)現(xiàn)頁面、技術文檔網(wǎng)站等。Srcbook的主要優(yōu)點包括開源性、靈活性和易用性，用戶可以根據(jù)自己的需求定制和擴展功能。

開源自托管 AI

ReCapture:用戶視頻的生成性視頻攝像機控制

ReCapture是一種從單一用戶提供的視頻生成新視頻和新穎攝像機軌跡的方法。該技術允許我們從完全不同的角度重新生成源視頻，并帶有電影級別的攝像機運動。ReCapture通過使用多視圖擴散模型或基于深度的點云渲染生成帶有新攝像機軌跡的嘈雜錨視頻，然后通過我們提出的掩蔽視頻微調(diào)技術將錨視頻重新生成為干凈且時間上一致的重新角度視頻。這種技術的重要性在于它能夠利用視頻模型的強大先驗，將近似的視頻重新生成為時間上一致且美觀的視頻。

視頻生成攝像機控制多視圖擴散模型

AI Tattoo Generator.net:快速創(chuàng)建個性化紋身設計

AI Tattoo Generator是一個利用人工智能技術幫助用戶快速創(chuàng)建個性化紋身設計的在線平臺。該平臺使用先進的機器學習算法，根據(jù)用戶輸入生成具有各種風格的現(xiàn)實感紋身概念圖，確保用戶的想法以視覺上引人入勝的方式呈現(xiàn)。它不僅能夠提供即時的設計結果，還能讓用戶根據(jù)自己的偏好進一步定制和細化設計，滿足個性化需求。

AI設計紋身個性化

Unfaked:AI生成的逼真圖片庫

Unfaked是一個提供由人工智能生成的逼真圖片的網(wǎng)站，這些圖片幾乎可以以假亂真。用戶可以免費下載并自由使用這些圖片。每周都會更新更多的圖片。這個平臺的重要性在于它為設計師、內(nèi)容創(chuàng)作者和營銷人員提供了一個免費的資源庫，他們可以在這里找到高質(zhì)量的圖片資源，而無需擔心版權問題。

AI生成免費圖片版權免費

ComfyUI-GIMM-VFI:基于GIMM-VFI的ComfyUI幀插值工具

ComfyUI-GIMM-VFI是一個基于GIMM-VFI算法的幀插值工具，使用戶能夠在圖像和視頻處理中實現(xiàn)高質(zhì)量的幀插值效果。該技術通過在連續(xù)幀之間插入新的幀來提高視頻的幀率，從而使得動作看起來更加流暢。這對于視頻游戲、電影后期制作和其他需要高幀率視頻的應用場景尤為重要。產(chǎn)品背景信息顯示，它是基于Python開發(fā)的，并且依賴于CuPy庫，特別適用于需要進行高性能計算的場景。

幀插值視頻處理圖像處理

5ire:簡單易用，釋放AI的強大力量

5ire是一個以簡潔和用戶友好為核心的AI產(chǎn)品，旨在讓即使是初學者也能輕松利用大型語言模型。它支持多種文檔格式的解析和向量化，具備本地知識庫、使用分析、提示庫、書簽和快速關鍵詞搜索等功能。作為一個開源項目，5ire提供免費下載，并且提供了按需付費的大型語言模型API服務。

AI 大型語言模型開源

AI Hear:一款在您電腦本地運行的私有軟件，提供多語種實時翻譯。

AI Hear是一款在電腦本地運行的私有軟件，它通過一鍵開啟多語種實時翻譯功能，幫助用戶管理音頻、譯文和時間軸。產(chǎn)品不收集數(shù)據(jù)，保護用戶隱私。它適用于多種場景，如線上會議、網(wǎng)課播客、游戲直播等，并且完全本地運行，相比市面上的實時翻譯產(chǎn)品更具性價比。

實時翻譯音頻管理隱私保護

SD Image:使用最新的Stable Diffusion 3.5模型生成高質(zhì)量圖像。

SD Image的Stable Diffusion 3.5 Image Generator是一個在線圖像生成器，它利用最新的Stable Diffusion 3.5模型，包括Medium, Large, Large Turbo，來生成高質(zhì)量的圖像。這項技術的重要性在于它能夠通過文本提示（prompt）快速生成圖像，為設計師、藝術家和創(chuàng)意工作者提供靈感和便利。產(chǎn)品背景信息顯示，SD Image是一個在線平臺，用戶可以通過它找到靈感、生成圖像、探索不同的prompt和模型。目前，該產(chǎn)品提供免費試用，適合需要快速生成圖像的用戶。

圖像生成 AI藝術創(chuàng)意工具

AI Homeworkify:下一代AI作業(yè)助手，免費獲取作業(yè)答案

AI Homeworkify是一個基于人工智能的在線問答平臺，旨在幫助學生通過提供詳細的答案和解題步驟來學習和理解各種學術問題。該平臺不涉及版權侵犯，注重教育平等，提供免費、即時的作業(yè)幫助，支持多種學科和語言。AI Homeworkify的主要優(yōu)點包括完全免費、無需注冊、即時答案、全天候服務、多設備兼容、隱私保護和逐步解決方案。產(chǎn)品背景信息顯示，AI Homeworkify致力于通過技術手段減少教育不平等，為全球?qū)W生提供免費的優(yōu)質(zhì)學習輔助服務。

AI 教育作業(yè)幫助

AI Voice Lab:在線將文字轉換為逼真的語音

AI Voice Lab免費 AI 文字轉語音神器是一個利用最新的類GPT AI語音模型技術，提供超級逼真的配音結果，支持20+種語言和100+種聲音，每天提供免費使用次數(shù)，適用于視頻、音頻制作等多種場景，提高內(nèi)容吸引力。

AI語音文字轉語音配音

LookAI:零基礎小白的Cursor AI編程學習平臺

LookAI是一個專為零基礎小白設計的AI編程學習平臺，提供Cursor AI編程教程和實戰(zhàn)項目，幫助用戶認識、學會使用Cursor，落地創(chuàng)意和想法。該平臺以視頻教程、實戰(zhàn)項目和AI資源集合為特色，旨在賦能每一個普通人，讓他們在AI時代中能夠更好地發(fā)揮自己的創(chuàng)造力。LookAI平臺免費提供資源，適合所有對AI編程感興趣的初學者。

AI編程零基礎實戰(zhàn)項目

DataChain:現(xiàn)代Python數(shù)據(jù)框庫，專為人工智能設計。

DataChain是一個現(xiàn)代的Python數(shù)據(jù)框庫，專為人工智能設計。它旨在將非結構化數(shù)據(jù)組織成數(shù)據(jù)集，并在本地機器上大規(guī)模處理數(shù)據(jù)。DataChain不抽象或隱藏AI模型和API調(diào)用，而是幫助將它們集成到后現(xiàn)代數(shù)據(jù)堆棧中。該產(chǎn)品以其高效性、易用性和強大的數(shù)據(jù)處理能力為主要優(yōu)點，支持多種數(shù)據(jù)存儲和處理方式，包括圖像、視頻、文本等多種數(shù)據(jù)類型，并且能夠與PyTorch和TensorFlow等深度學習框架無縫對接。DataChain是開源的，遵循Apache-2.0許可協(xié)議，免費供用戶使用。

機器學習人工智能數(shù)據(jù)科學

PromptQL:AI驅(qū)動的數(shù)據(jù)訪問工具，提升私有數(shù)據(jù)的智能檢索效率。

PromptQL是一個專為AI設計的代理數(shù)據(jù)訪問工具，它通過代理查詢規(guī)劃，像人類一樣檢索數(shù)據(jù)，首先收集相關信息，然后應用合適的大型語言模型（LLM）進行分類和后續(xù)處理，以提高私有數(shù)據(jù)的檢索效率和準確性。這一技術的出現(xiàn)，解決了傳統(tǒng)搜索算法在封閉領域中對數(shù)據(jù)檢索的局限性，特別是在用戶提出非標準化查詢時，PromptQL能夠更好地理解和響應。產(chǎn)品背景信息顯示，PromptQL旨在通過與用戶的緊密合作，免費構建首個代理，以評估和提升現(xiàn)有AI代理/助手的性能。

剛剛，OpenAI開源SimpleQA！輕松檢測、校準大模型能力

今日大家都在搜的詞：

熱文

站長商機

剛剛，OpenAI開源SimpleQA！輕松檢測、校準大模型能力