幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 熱點 > 關(guān)鍵詞  > 正文

智源研究院開源JudgeLM 可評測各類大模型并輸出評分

2023-11-13 08:28 · 稿源:站長之家

站長之家(ChinaZ.com)11月13日 消息:智源研究院開源了一種名為 JudgeLM 的裁判模型,可以高效準(zhǔn)確地評判各類大模型。

與 GPT-4相比,JudgeLM 僅需1/120的成本,就能達(dá)到90% 以上的評判結(jié)果一致性。它可以應(yīng)用于純文本、多模態(tài)等多種評判場景,并可以輸出評分、判斷和闡述理由。

微信截圖_20231113082912.png

通過創(chuàng)新方法,JudgeLM 與參考答案的一致性最高超過了90%,接近人類表現(xiàn)。JudgeLM 有三個不同參數(shù)版本,分別為70億、130億和330億參數(shù),能力和表現(xiàn)隨著參數(shù)規(guī)模的增大而提升。

此外,智源研究院還開源了一個包含訓(xùn)練和驗證樣本的數(shù)據(jù)集,用于深入研究大語言模型裁判。JudgeLM 的評判效率高,成本低于基于 API 的評判方法。

未來,JudgeLM 團(tuán)隊將進(jìn)一步完善這一裁判模型,提供更準(zhǔn)確、高效、覆蓋更多場景的大語言模型評判。

JudgeLM 相關(guān)資源:

github :https://github.com/baaivision/JudgeLM

arxiv :https://arxiv.org/abs/2310.17631

demo(33B) :https://218.91.113.230:9004/

舉報

  • 相關(guān)推薦
  • 秉承初心,東融研究院致力推動助貸行業(yè)變革

    我國助貸行業(yè)如雨后春筍般涌現(xiàn),根據(jù)公開信息資料初步測算,全國助貸從業(yè)人員已超200萬。這一數(shù)字背后,是市場對信貸服務(wù)需求的激增,也是助貸行業(yè)存在必要性的直接體現(xiàn)。東融致力于解決融資難、融資貴的問題,通過互聯(lián)網(wǎng)的模式創(chuàng)新與技術(shù)創(chuàng)新,線上線下相結(jié)合,為各大客戶提供一站式融資解決方案。

  • RockAI成功入選中國信通華東分院大模型“圖譜”

    由上海市經(jīng)信委指導(dǎo),中國信通院、臨港集團(tuán)主辦的2025中國信通院深度觀察報告會華東分會場在漕河涇舉辦,會上正式發(fā)布《2024大模型價值新視界:場景落地應(yīng)用全景洞察圖譜》。RockAI憑借Yan架構(gòu)大模型在機(jī)器人、手機(jī)、PC等終端設(shè)備落地應(yīng)用的探索,成功上榜圖譜「具身智能」和「智能終端」兩大領(lǐng)域。RockAI秉持“讓世界上每一臺設(shè)備擁有自己的智能”的品牌使命,深耕大模型領(lǐng)域技術(shù)突破,不斷拓展多元設(shè)備端的落地應(yīng)用場景,有助于推動大模型產(chǎn)業(yè)與硬件廠商的協(xié)同發(fā)展,促進(jìn)智能化設(shè)備的AI升級,為實現(xiàn)AI普惠貢獻(xiàn)力量。

  • 大模型不再有信仰

    AI大模型的“AGI信仰”可能正處在崩潰邊緣,與曾經(jīng)的“區(qū)塊鏈信仰”殊途同歸。只是當(dāng)初那一大批“區(qū)塊鏈信仰者”,雖然絕大多數(shù)是韭菜,但也有一小批“塔尖”人士賺的盆滿缽滿;如今的AI大模型初創(chuàng)公司,拋開“AGI信仰”,恐怕連能活多久都不知道。2025年各大模型公司應(yīng)該會更加務(wù)實是那句話,只有活得下去才有實現(xiàn)目標(biāo)的可能,“信仰”不再重要。

  • 突破算力限制!Meta開源“記憶層”,重塑Transformer架構(gòu)大模型

    今天凌晨3點,全球社交巨頭Meta分享了一個創(chuàng)新研究——Memorylayers。Transformer架構(gòu)的預(yù)訓(xùn)練大模型在存儲、查詢數(shù)據(jù)時,隨著參數(shù)的變大對算力的需求呈指數(shù)級增長。這樣的設(shè)計既簡化了維護(hù)流程,又提高了系統(tǒng)的靈活性和適應(yīng)性。

  • 我們正在大模型產(chǎn)品面前“裸奔”么

    全球有數(shù)億人在向AI產(chǎn)品傾訴他們的想法、困惑、創(chuàng)意,甚至秘密。但鮮有人意識到,這些對話正在以“幫助訓(xùn)練下一代AI模型的”的名義,突破著過往移動互聯(lián)網(wǎng)產(chǎn)品的數(shù)據(jù)使用界限??雌饋憩F(xiàn)在是時候有更多更直接和更嚴(yán)肅的討論了。

  • 機(jī)器人ChatGPT時刻!英偉達(dá)開源世界大模型,完美模擬物理世界!

    全球AI領(lǐng)導(dǎo)者NVIDIA在2025年CES展會上,開源了全新世界大模型NVIDIACosmos。Cosmos共有Nano、Super和Ultra三種型號:Nano針對實時、低延遲推理和邊緣部署進(jìn)行了優(yōu)化;Super作為性能基線模型設(shè)計;Ultra專注于最大質(zhì)量和保真度,是蒸餾定制模型的理想選擇。通過與NVIDIA合作,我們有信心可以幫助加速安全和可擴(kuò)展的自動駕駛解決方案。

  • 昇騰AI平臺訓(xùn)練推理!中國聯(lián)通元景文生圖大模型開源:真正懂中文

    中國聯(lián)通宣布,聯(lián)通數(shù)據(jù)智能公司打造、首個完全在國產(chǎn)昇騰AI軟硬件平臺上實現(xiàn)訓(xùn)練和推理的中文原生文生圖模型聯(lián)通元景文生圖模型”,正式開源。該模型實現(xiàn)了多項自主創(chuàng)新突破:首先是在架構(gòu)上,通過在SDXL架構(gòu)中融合復(fù)合語言編碼模塊,實現(xiàn)了對中文長文本、多屬性對應(yīng)和中文特色詞匯的精確語義理解,對應(yīng)圖像的生成效果得到了極大提升。該模型已在聯(lián)通的多個內(nèi)?

  • 大模型,在內(nèi)卷中尋找出口

    2024年,大模型進(jìn)展不斷。從年初的Sora到最新的o3,更新更好的模型不斷被推出,“內(nèi)卷”到底有沒有發(fā)生?我們要先確定“內(nèi)卷”的定義,指某一類產(chǎn)業(yè)模式,發(fā)展到一種確定形式后,陷入“高水平均衡陷阱”,出現(xiàn)“沒有發(fā)展的增長”,這種局面一直無法被打破,那就會走向停滯和危機(jī)。大模型要取得商業(yè)成功,前提是用戶和開發(fā)者的業(yè)務(wù)能否成功,這是為什么完善的商業(yè)基

  • 大模型落地戰(zhàn),挺進(jìn)大消費

    便利店市場在中國以及全球范圍內(nèi)迅速崛起,成為消費領(lǐng)域的重要增長點。據(jù)中國連鎖經(jīng)營協(xié)會聯(lián)合畢馬威發(fā)布的《2024年中國便利店發(fā)展報告》顯示,中國便利店2023年全年銷售額達(dá)到4248億元,同比增速達(dá)10.8%。拉近企業(yè)與上下游及終端消費者距離,構(gòu)建產(chǎn)業(yè)生態(tài),精準(zhǔn)洞察消費需求,驅(qū)動行業(yè)數(shù)字化轉(zhuǎn)型。

  • 大模型六小虎,要撞上版權(quán)墻了

    “幾乎沒有一家大模型公司的AI視頻生成訓(xùn)練,會找視頻網(wǎng)站授權(quán)。”2025年伊始,在視頻生成領(lǐng)域立志“追平Sora”的大模型公司,撞上了版權(quán)墻??梢钥隙ǖ氖?,2025年想要繼續(xù)留在牌桌上的大模型創(chuàng)企們,在模型訓(xùn)練過程中為版權(quán)付費只是第一步,降本不是長久之計,想法子賺錢增效,才是關(guān)鍵。

熱文

  • 3 天
  • 7天