研究人員稱(chēng)，即使是最糟糕Claude AI版本也比GPT 3.5更好

2023-10-08 09:47 · 稿源：站長(zhǎng)之家

文章概要:
1. 全球排名顯示，Anthropic的Claude AI模型超越了OpenAI的GPT3.5，即使是最差版本也表現(xiàn)出色。
2. Claude模型在性能評(píng)估中獲得高分，主要由LMSO組織的Chatbot Arena Leaderboard進(jìn)行排名。
3. Claude模型在處理大規(guī)模上下文輸入和長(zhǎng)提示時(shí)表現(xiàn)出優(yōu)勢(shì)，引發(fā)了對(duì)AI聊天機(jī)器人在不同領(lǐng)域的實(shí)際應(yīng)用的重要討論。

站長(zhǎng)之家（ChinaZ.com）10月8日消息:10月6日，一場(chǎng)引人入勝的競(jìng)爭(zhēng)正在AI行業(yè)內(nèi)悄然展開(kāi)，OpenAI的ChatGPT與Anthropic的Claude AI模型之間展開(kāi)了激烈的角逐。負(fù)責(zé)創(chuàng)建Chatbot Arena和著名的Vicuna模型的大型模型系統(tǒng)組織（LMSO）剛剛更新了他們的Chatbot Arena排行榜，展示了每個(gè)AI聊天機(jī)器人與競(jìng)爭(zhēng)對(duì)手相比的表現(xiàn)。結(jié)果顯示，即使Anthropic的模型仍然免費(fèi)使用，它也在性能上超越了OpenAI，成為了新的全球排名領(lǐng)頭羊。

GPT-4是ChatGPT Plus和Bing AI背后的強(qiáng)大引擎，以最高分?jǐn)?shù)位居榜首，為大型語(yǔ)言模型（LLM）設(shè)定了黃金標(biāo)準(zhǔn)。但隨著排行榜的下滑，一個(gè)出人意料的劣勢(shì)故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表現(xiàn)出色，超越了驅(qū)動(dòng)ChatGPT免費(fèi)版本的GPT-3.5引擎。這意味著Anthropic開(kāi)發(fā)的每個(gè)大型語(yǔ)言模型都可以勝過(guò)ChatGPT的免費(fèi)版本。

LMSO通過(guò)其精細(xì)的排名系統(tǒng)為這些模型的性能指標(biāo)提供了見(jiàn)解。根據(jù)排行榜，GPT-4擁有1181的Arena Elo評(píng)分，遠(yuǎn)遠(yuǎn)領(lǐng)先于榜單，而Claude模型緊隨其后，評(píng)分從1119到1155不等。另一方面，GPT-3.5的評(píng)分為1115。

為了排名這些模型，LMSO讓它們?cè)谙嗨频奶崾鞠逻M(jìn)行“比賽”。給出最佳答案的模型獲勝，另一個(gè)模型失利。用戶根據(jù)自己的喜好決定誰(shuí)獲勝，但他們永遠(yuǎn)不會(huì)知道哪些模型在競(jìng)爭(zhēng)。

正如Decrypt之前報(bào)道的那樣，雖然這不是LMSO排名的因素，但在ChatGPT Plus和Claude Pro之間的token處理能力差異也是Claude模型勝過(guò)GPT的主要優(yōu)勢(shì)。

基于Claude2LLM的Claude Pro可以處理高達(dá)100，000個(gè)信息token，而由GPT-4LLM提供支持的ChatGPT Plus則處理8，192個(gè)令牌，"我們回顧道。這種令牌處理能力的差異突顯了Claude模型在處理廣泛上下文輸入方面的優(yōu)勢(shì)，這對(duì)于細(xì)致和豐富的用戶體驗(yàn)至關(guān)重要。

此外，在處理長(zhǎng)提示時(shí)，Claude2在效率上表現(xiàn)出優(yōu)勢(shì)，可以更有效地處理更大規(guī)模的提示。然而，在提示可比較的情況下，Claude1和Claude Instant提供了與GPT-3.5相似或略優(yōu)的結(jié)果，展示了這些模型的競(jìng)爭(zhēng)性質(zhì)。借助Claude的上下文功能，初始不佳的答案可以通過(guò)更精細(xì)、更大和更豐富的提示得到顯著改進(jìn)。

開(kāi)源模型在這場(chǎng)競(jìng)賽中也不遑多讓。

WizardLM是一個(gè)在Meta的LlaMA-2上訓(xùn)練的擁有700億參數(shù)的最佳開(kāi)源LLM模型。緊隨其后的是Vicuna33B和由Meta發(fā)布的原始LlaMA-2。

開(kāi)源模型在AI領(lǐng)域的發(fā)展中發(fā)揮著重要作用，原因各種各樣。它們可以在本地運(yùn)行，使用戶有機(jī)會(huì)對(duì)其進(jìn)行微調(diào)，并使社區(qū)參與到完善模型的集體努力中。由于許可證的原因，它們運(yùn)行成本更低，這就是為什么這個(gè)領(lǐng)域有數(shù)十種開(kāi)源LLM模型，而只有少數(shù)專(zhuān)有模型的原因。

但AI聊天機(jī)器人的比賽不僅僅關(guān)乎數(shù)字，還關(guān)乎現(xiàn)實(shí)世界的影響。

隨著聊天機(jī)器人在從客戶服務(wù)到個(gè)人助手等各個(gè)領(lǐng)域的逐漸融入，它們的效能、適應(yīng)性和準(zhǔn)確性變得至關(guān)重要。由于Claude模型在排名上超越了GPT-3.5，企業(yè)和個(gè)人用戶可能會(huì)發(fā)現(xiàn)自己在評(píng)估哪個(gè)模型最符合其需求時(shí)面臨抉擇。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

薦亞馬遜祭出地表最強(qiáng)全家桶，多模態(tài)Nova卻敗給Claude 3.5！

【新智元導(dǎo)讀】圍剿英偉達(dá)，數(shù)十萬(wàn)顆自研二代芯片超算在建!亞馬遜祭出地表最強(qiáng)全家桶，多模態(tài)Nova擊敗GPT-4o。亞馬遜推出了號(hào)稱(chēng)最強(qiáng)大的多模態(tài)模型Nova系列。IDC在2023年12月發(fā)布的最新研究報(bào)告顯示，英偉達(dá)當(dāng)前在AI芯片市場(chǎng)中占據(jù)著約95%的主導(dǎo)地位。

?Nova
萬(wàn)字獨(dú)家爆光，首揭o1 pro架構(gòu)！驚人反轉(zhuǎn)，Claude 3.5 Opus沒(méi)失??？

【新智元導(dǎo)讀】全網(wǎng)獨(dú)一份o1pro架構(gòu)爆料來(lái)了!首創(chuàng)自洽性機(jī)制打破推理極限，「草莓訓(xùn)練」系統(tǒng)首次揭秘。更令人震驚的是，OpenAI和Anthropic自留Orion、Claude3.5超大杯，并不是內(nèi)部失敗了是它們成為數(shù)據(jù)生成的秘密武器。鑒于OpenAI和微軟目前大約在數(shù)十萬(wàn)塊GPU上運(yùn)行GPT的推理，對(duì)預(yù)訓(xùn)練進(jìn)行scaling似乎仍然能夠提供所需的成本節(jié)約。

?o1pro架構(gòu) ?自洽性機(jī)制 ?草莓訓(xùn)練系統(tǒng)
薦Claude 3.5編程收入暴增10倍，搶走Cursor反殺OpenAI！估值180億初創(chuàng)3年顛覆硅谷

OpenAI有許多緊追不舍的競(jìng)爭(zhēng)對(duì)手，但沒(méi)有哪家能像Anthropic這樣讓OpenAI的高管們寢食難安。AI編程既是OpenAI的優(yōu)勢(shì)領(lǐng)域，也是數(shù)百萬(wàn)用戶訂閱ChatGPT的主要原因之一。追趕OpenAI，成為下一個(gè)OpenAI。

?Claude
薦Claude化身服務(wù)器聯(lián)通一切！AI寫(xiě)好代碼自己發(fā)Github，人類(lèi)程序員只配動(dòng)嘴了

Anthropic又發(fā)大禮包!現(xiàn)在Claude自己就是一臺(tái)服務(wù)器。能直連GitHub，AI自己寫(xiě)代碼、自己創(chuàng)建倉(cāng)庫(kù)、Push代碼、創(chuàng)建Issue、創(chuàng)建分支、創(chuàng)建PR一條龍服務(wù)。官方谷歌文檔支持恐怕正是通過(guò)MCP實(shí)現(xiàn)的。

?Claude ?AI編程 ?代碼生成
薦AI日?qǐng)?bào)：OpenAI全量上線視頻聊天功能；Anthropic最快模型Claude 3.5 Haiku全面開(kāi)放；巨人網(wǎng)絡(luò)推游戲大模型千影 QianYing

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI推出屏幕共享與視頻聊天功能，ChatGPT整了個(gè)“圣誕老人模式”O(jiān)penAI最近在其高級(jí)語(yǔ)音模式中新增了視頻聊天和屏幕共享功能，允許用戶在移動(dòng)應(yīng)用中與ChatGPT進(jìn)行實(shí)時(shí)互動(dòng)。該模型仍在技術(shù)打磨中，同時(shí)啟動(dòng)了“千影共創(chuàng)計(jì)劃”，旨在促進(jìn)“游戲AI”領(lǐng)域的發(fā)展。

?OpenAI ?ChatGPT ?視頻聊天
薦AI日?qǐng)?bào)：智譜AI發(fā)布AutoGLM升級(jí)版；Kimi灰測(cè)AI視頻生成功能；SD3.5L新增三大ControlNet功能；ChatGPT誕生兩周年

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、震撼來(lái)襲!StabilityAI的SD3.5L新增三大ControlNet功能生圖能力再升級(jí)StabilityAI發(fā)布了新版StableDiffusion3.5Large，新增三種ControlNet功能，分別是Blur、Canny和Depth，顯著提升了圖像生成能力。?

?Stability ?AI ?Stable
AI也會(huì)得老年癡呆！最新研究：AI版本越老越糊涂

以色列特拉維夫大學(xué)的一項(xiàng)研究表明AI已有數(shù)字癡呆癥。在這項(xiàng)研究中，科學(xué)家測(cè)試了幾乎所有全球頂尖AI大型語(yǔ)言模型，結(jié)果都表現(xiàn)出類(lèi)似于早期老年癡呆的認(rèn)知障礙，并且版本越老，表現(xiàn)就越差。他們做出了有數(shù)字癡呆的AI，不可能很快取代醫(yī)生的這一結(jié)論。

?AI研究 ?數(shù)字癡呆癥 ?特拉維夫大學(xué)
ChatGPT版本大更新！沸蛇AI語(yǔ)音鼠標(biāo)，更適合國(guó)人的創(chuàng)作神器

OpenAI“12天12場(chǎng)直播”活動(dòng)已開(kāi)啟，首秀期間帶來(lái)推理大模型o1滿血版和進(jìn)階模式，以及比4.0更進(jìn)步的ChatGPTPro訂閱服務(wù)。相較早期版本，OpenAI本次推出的新品擁有類(lèi)似人類(lèi)思維方式的內(nèi)部思維邏輯鏈條，從顯著提高在回答專(zhuān)業(yè)問(wèn)題時(shí)的準(zhǔn)確性。AI時(shí)代下，也期待云決科技能夠不斷推陳出新，利用更先進(jìn)的人工智能技術(shù)，為用戶提供更多快捷方便的AIGC應(yīng)用。

?OpenAI ?AI技術(shù) ?ChatGPT
一臺(tái)搞定所有需求！ThinkPad X1 Carbon Aura AI元啟版開(kāi)啟AI辦公新時(shí)代

隨著AI技術(shù)的深入應(yīng)用，從數(shù)據(jù)分析到內(nèi)容生成，再到高效日程管理，智能辦公已成為商務(wù)人士不可或缺的需求。作為AI賦能的商務(wù)筆記本典范，聯(lián)想全新推出的ThinkPadX1CarbonAuraAI元啟版于近日正式開(kāi)售。加速AI普惠，ThinkPad正為每位用戶開(kāi)啟無(wú)限潛能。

?AI辦公 ?商務(wù)筆記本 ?ThinkPad
消息稱(chēng)OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

AI初創(chuàng)公司OpenAI開(kāi)發(fā)其下一個(gè)主要模型GPT-5的努力正落后于計(jì)劃，其結(jié)果還不能證明巨大的成本是合理的。OpenAI已經(jīng)完成了至少兩次大型訓(xùn)練運(yùn)行，其目的是通過(guò)對(duì)大量數(shù)據(jù)的訓(xùn)練來(lái)改進(jìn)模型。在Codeforces競(jìng)技編程中o3模型得分為2727分，甚至超過(guò)了OpenAI的首席科學(xué)家。

?GPT-5 ?OpenAI ?AI模型

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

研究人員稱(chēng)，即使是最糟糕Claude AI版本也比GPT 3.5更好

薦亞馬遜祭出地表最強(qiáng)全家桶，多模態(tài)Nova卻敗給Claude 3.5！

萬(wàn)字獨(dú)家爆光，首揭o1 pro架構(gòu)！驚人反轉(zhuǎn)，Claude 3.5 Opus沒(méi)失??？

薦Claude 3.5編程收入暴增10倍，搶走Cursor反殺OpenAI！估值180億初創(chuàng)3年顛覆硅谷

薦Claude化身服務(wù)器聯(lián)通一切！AI寫(xiě)好代碼自己發(fā)Github，人類(lèi)程序員只配動(dòng)嘴了

薦AI日?qǐng)?bào)：OpenAI全量上線視頻聊天功能；Anthropic最快模型Claude 3.5 Haiku全面開(kāi)放；巨人網(wǎng)絡(luò)推游戲大模型千影 QianYing

薦AI日?qǐng)?bào)：智譜AI發(fā)布AutoGLM升級(jí)版；Kimi灰測(cè)AI視頻生成功能；SD3.5L新增三大ControlNet功能；ChatGPT誕生兩周年

AI也會(huì)得老年癡呆！最新研究：AI版本越老越糊涂

ChatGPT版本大更新！沸蛇AI語(yǔ)音鼠標(biāo)，更適合國(guó)人的創(chuàng)作神器

一臺(tái)搞定所有需求！ThinkPad X1 Carbon Aura AI元啟版開(kāi)啟AI辦公新時(shí)代

消息稱(chēng)OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

熱文

吳柳芳賬號(hào)再次被禁粉絲從600萬(wàn)被清理至4萬(wàn) 抖音：低俗內(nèi)容吸

劉強(qiáng)東提前發(fā)年終獎(jiǎng) 絕大多數(shù)員工可獲5到8個(gè)月年終獎(jiǎng)

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

肯德基中國(guó)漲價(jià) 官方回應(yīng)：運(yùn)營(yíng)成本變化導(dǎo)致

小米SU7最新版本OTA推送：正式接入VLM視覺(jué)語(yǔ)言大模型

李斌回應(yīng)螢火蟲(chóng)外觀設(shè)計(jì)：看過(guò)實(shí)車(chē)的人都喜歡這個(gè)設(shè)計(jì)

央視曝光未成年人繞開(kāi)防沉迷只需4元：通過(guò)租用游戲賬號(hào)規(guī)避

微信可以線上送實(shí)體禮物了：微信小店“藍(lán)包”功能正灰度測(cè)試逐

美團(tuán)回應(yīng)騎手穿點(diǎn)男模字樣工服：博流量惡意炒作

騰訊張軍辟謠微信送禮會(huì)議紀(jì)要：只想做點(diǎn)腳踏實(shí)地的事