智源研究院開源JudgeLM 可評測各類大模型并輸出評分

2023-11-13 08:28 · 稿源：站長之家

站長之家（ChinaZ.com）11月13日消息:智源研究院開源了一種名為 JudgeLM 的裁判模型，可以高效準(zhǔn)確地評判各類大模型。

與 GPT-4相比，JudgeLM 僅需1/120的成本，就能達(dá)到90% 以上的評判結(jié)果一致性。它可以應(yīng)用于純文本、多模態(tài)等多種評判場景，并可以輸出評分、判斷和闡述理由。

微信截圖_20231113082912.png

通過創(chuàng)新方法，JudgeLM 與參考答案的一致性最高超過了90%，接近人類表現(xiàn)。JudgeLM 有三個不同參數(shù)版本，分別為70億、130億和330億參數(shù)，能力和表現(xiàn)隨著參數(shù)規(guī)模的增大而提升。

此外，智源研究院還開源了一個包含訓(xùn)練和驗證樣本的數(shù)據(jù)集，用于深入研究大語言模型裁判。JudgeLM 的評判效率高，成本低于基于 API 的評判方法。

未來，JudgeLM 團(tuán)隊將進(jìn)一步完善這一裁判模型，提供更準(zhǔn)確、高效、覆蓋更多場景的大語言模型評判。

JudgeLM 相關(guān)資源:

github :https://github.com/baaivision/JudgeLM

arxiv :https://arxiv.org/abs/2310.17631

demo（33B） :https://218.91.113.230:9004/

（舉報）

相關(guān)推薦

關(guān)鍵詞：

秉承初心，東融研究院致力推動助貸行業(yè)變革

我國助貸行業(yè)如雨后春筍般涌現(xiàn)，根據(jù)公開信息資料初步測算，全國助貸從業(yè)人員已超200萬。這一數(shù)字背后，是市場對信貸服務(wù)需求的激增，也是助貸行業(yè)存在必要性的直接體現(xiàn)。東融致力于解決融資難、融資貴的問題，通過互聯(lián)網(wǎng)的模式創(chuàng)新與技術(shù)創(chuàng)新，線上線下相結(jié)合，為各大客戶提供一站式融資解決方案。

?助貸行業(yè) ?貸款服務(wù) ?金融科技
RockAI成功入選中國信通院華東分院大模型“圖譜”

由上海市經(jīng)信委指導(dǎo)，中國信通院、臨港集團(tuán)主辦的2025中國信通院深度觀察報告會華東分會場在漕河涇舉辦，會上正式發(fā)布《2024大模型價值新視界:場景落地應(yīng)用全景洞察圖譜》。RockAI憑借Yan架構(gòu)大模型在機(jī)器人、手機(jī)、PC等終端設(shè)備落地應(yīng)用的探索，成功上榜圖譜「具身智能」和「智能終端」兩大領(lǐng)域。RockAI秉持“讓世界上每一臺設(shè)備擁有自己的智能”的品牌使命，深耕大模型領(lǐng)域技術(shù)突破，不斷拓展多元設(shè)備端的落地應(yīng)用場景，有助于推動大模型產(chǎn)業(yè)與硬件廠商的協(xié)同發(fā)展，促進(jìn)智能化設(shè)備的AI升級，為實現(xiàn)AI普惠貢獻(xiàn)力量。

?大模型 ?具身智能 ?智能終端
薦大模型不再有信仰

AI大模型的“AGI信仰”可能正處在崩潰邊緣，與曾經(jīng)的“區(qū)塊鏈信仰”殊途同歸。只是當(dāng)初那一大批“區(qū)塊鏈信仰者”，雖然絕大多數(shù)是韭菜，但也有一小批“塔尖”人士賺的盆滿缽滿;如今的AI大模型初創(chuàng)公司，拋開“AGI信仰”，恐怕連能活多久都不知道。2025年各大模型公司應(yīng)該會更加務(wù)實是那句話，只有活得下去才有實現(xiàn)目標(biāo)的可能，“信仰”不再重要。

?AI大模型 ?AGI信仰 ?區(qū)塊鏈信仰
薦突破算力限制！Meta開源“記憶層”，重塑Transformer架構(gòu)大模型

今天凌晨3點，全球社交巨頭Meta分享了一個創(chuàng)新研究——Memorylayers。Transformer架構(gòu)的預(yù)訓(xùn)練大模型在存儲、查詢數(shù)據(jù)時，隨著參數(shù)的變大對算力的需求呈指數(shù)級增長。這樣的設(shè)計既簡化了維護(hù)流程，又提高了系統(tǒng)的靈活性和適應(yīng)性。

?Meta
薦我們正在大模型產(chǎn)品面前“裸奔”么

全球有數(shù)億人在向AI產(chǎn)品傾訴他們的想法、困惑、創(chuàng)意，甚至秘密。但鮮有人意識到，這些對話正在以“幫助訓(xùn)練下一代AI模型的”的名義，突破著過往移動互聯(lián)網(wǎng)產(chǎn)品的數(shù)據(jù)使用界限?？雌饋憩F(xiàn)在是時候有更多更直接和更嚴(yán)肅的討論了。

?AI對話 ?數(shù)據(jù)隱私 ?ChatGPT革命
薦機(jī)器人ChatGPT時刻！英偉達(dá)開源世界大模型，完美模擬物理世界！

全球AI領(lǐng)導(dǎo)者NVIDIA在2025年CES展會上，開源了全新世界大模型NVIDIACosmos。Cosmos共有Nano、Super和Ultra三種型號:Nano針對實時、低延遲推理和邊緣部署進(jìn)行了優(yōu)化;Super作為性能基線模型設(shè)計;Ultra專注于最大質(zhì)量和保真度，是蒸餾定制模型的理想選擇。通過與NVIDIA合作，我們有信心可以幫助加速安全和可擴(kuò)展的自動駕駛解決方案。

?NVIDIA ?AI大模型 ?模擬訓(xùn)練
昇騰AI平臺訓(xùn)練推理！中國聯(lián)通元景文生圖大模型開源：真正懂中文

中國聯(lián)通宣布，聯(lián)通數(shù)據(jù)智能公司打造、首個完全在國產(chǎn)昇騰AI軟硬件平臺上實現(xiàn)訓(xùn)練和推理的中文原生文生圖模型聯(lián)通元景文生圖模型”，正式開源。該模型實現(xiàn)了多項自主創(chuàng)新突破：首先是在架構(gòu)上，通過在SDXL架構(gòu)中融合復(fù)合語言編碼模塊，實現(xiàn)了對中文長文本、多屬性對應(yīng)和中文特色詞匯的精確語義理解，對應(yīng)圖像的生成效果得到了極大提升。該模型已在聯(lián)通的多個內(nèi)?

?中國聯(lián)通 ?昇騰AI ?文生圖模型
薦大模型，在內(nèi)卷中尋找出口

2024年，大模型進(jìn)展不斷。從年初的Sora到最新的o3，更新更好的模型不斷被推出，“內(nèi)卷”到底有沒有發(fā)生?我們要先確定“內(nèi)卷”的定義，指某一類產(chǎn)業(yè)模式，發(fā)展到一種確定形式后，陷入“高水平均衡陷阱”，出現(xiàn)“沒有發(fā)展的增長”，這種局面一直無法被打破，那就會走向停滯和危機(jī)。大模型要取得商業(yè)成功，前提是用戶和開發(fā)者的業(yè)務(wù)能否成功，這是為什么完善的商業(yè)基

?大模型進(jìn)展 ?內(nèi)卷現(xiàn)象 ?scaling
薦大模型落地戰(zhàn)，挺進(jìn)大消費

便利店市場在中國以及全球范圍內(nèi)迅速崛起，成為消費領(lǐng)域的重要增長點。據(jù)中國連鎖經(jīng)營協(xié)會聯(lián)合畢馬威發(fā)布的《2024年中國便利店發(fā)展報告》顯示，中國便利店2023年全年銷售額達(dá)到4248億元，同比增速達(dá)10.8%。拉近企業(yè)與上下游及終端消費者距離，構(gòu)建產(chǎn)業(yè)生態(tài)，精準(zhǔn)洞察消費需求，驅(qū)動行業(yè)數(shù)字化轉(zhuǎn)型。

?便利店市場 ?數(shù)字化能力 ?消費增長點
薦大模型六小虎，要撞上版權(quán)墻了

“幾乎沒有一家大模型公司的AI視頻生成訓(xùn)練，會找視頻網(wǎng)站授權(quán)。”2025年伊始，在視頻生成領(lǐng)域立志“追平Sora”的大模型公司，撞上了版權(quán)墻?？梢钥隙ǖ氖?，2025年想要繼續(xù)留在牌桌上的大模型創(chuàng)企們，在模型訓(xùn)練過程中為版權(quán)付費只是第一步，降本不是長久之計，想法子賺錢增效，才是關(guān)鍵。

?AI視頻生成 ?著作權(quán) ?模型訓(xùn)練

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

智源研究院開源JudgeLM 可評測各類大模型并輸出評分

秉承初心，東融研究院致力推動助貸行業(yè)變革

RockAI成功入選中國信通院華東分院大模型“圖譜”

薦大模型不再有信仰

薦突破算力限制！Meta開源“記憶層”，重塑Transformer架構(gòu)大模型

薦我們正在大模型產(chǎn)品面前“裸奔”么

薦機(jī)器人ChatGPT時刻！英偉達(dá)開源世界大模型，完美模擬物理世界！

昇騰AI平臺訓(xùn)練推理！中國聯(lián)通元景文生圖大模型開源：真正懂中文

薦大模型，在內(nèi)卷中尋找出口

薦大模型落地戰(zhàn)，挺進(jìn)大消費

薦大模型六小虎，要撞上版權(quán)墻了

熱文

胖東來不允許夫妻間家暴冷暴力不允許員工打孩子

周鴻祎1天漲粉超百萬稱準(zhǔn)備送車：考慮仰望、享界、問界等

馬斯克：AI訓(xùn)練去年就已耗盡現(xiàn)實世界的所有資料

周鴻祎談劉強(qiáng)東給村民發(fā)福利：展現(xiàn)了極高的社會責(zé)任感

抖音：2024年通過AI大模型提升識別能力處罰違規(guī)賬號超600萬個

馬化騰內(nèi)部講話：堅決支持微信生態(tài) 從原子層角度去思考電商

2025年首臺FF 91 2.0交付：賈躍亭和大家舉杯慶賀

小紅書成2025年央視春晚“獨家筆記分享平臺”

美團(tuán)：2024年共有30982名騎手因使用外掛被封禁賬號

賈躍亭：三月揭曉FX6更多進(jìn)展力爭年底首輛FX車下線

胖東來不允許夫妻間家暴冷暴力不允許員工打孩子

西藏地震有人不當(dāng)利用AI生成災(zāi)害場景抖音：嚴(yán)格處罰！

周鴻祎1天漲粉超百萬稱準(zhǔn)備送車：考慮仰望、享界、問界等

小米YU7冬測！雷軍、盧偉冰現(xiàn)身黑河：一起放加特林煙花

馬斯克：AI訓(xùn)練去年就已耗盡現(xiàn)實世界的所有資料

Nvidia 的 AI 帝國：看看它投資的頂級初創(chuàng)企業(yè)

周鴻祎談劉強(qiáng)東給村民發(fā)福利：展現(xiàn)了極高的社會責(zé)任感

抖音：2024年通過AI大模型提升識別能力處罰違規(guī)賬號超600萬個

蘋果公司披露高管薪酬和股東提案細(xì)節(jié) 庫克2024年收入7461萬美元

段永平公開表示購買騰訊與茅臺，回應(yīng)市場調(diào)整與回購戰(zhàn)略

站長商機(jī)