文章概要:
1. 全球排名顯示,Anthropic的Claude AI模型超越了OpenAI的GPT3.5,即使是最差版本也表現(xiàn)出色。
2. Claude模型在性能評(píng)估中獲得高分,主要由LMSO組織的Chatbot Arena Leaderboard進(jìn)行排名。
3. Claude模型在處理大規(guī)模上下文輸入和長(zhǎng)提示時(shí)表現(xiàn)出優(yōu)勢(shì),引發(fā)了對(duì)AI聊天機(jī)器人在不同領(lǐng)域的實(shí)際應(yīng)用的重要討論。
站長(zhǎng)之家(ChinaZ.com)10月8日 消息:10月6日,一場(chǎng)引人入勝的競(jìng)爭(zhēng)正在AI行業(yè)內(nèi)悄然展開(kāi),OpenAI的ChatGPT與Anthropic的Claude AI模型之間展開(kāi)了激烈的角逐。負(fù)責(zé)創(chuàng)建Chatbot Arena和著名的Vicuna模型的大型模型系統(tǒng)組織(LMSO)剛剛更新了他們的Chatbot Arena排行榜,展示了每個(gè)AI聊天機(jī)器人與競(jìng)爭(zhēng)對(duì)手相比的表現(xiàn)。結(jié)果顯示,即使Anthropic的模型仍然免費(fèi)使用,它也在性能上超越了OpenAI,成為了新的全球排名領(lǐng)頭羊。
GPT-4是ChatGPT Plus和Bing AI背后的強(qiáng)大引擎,以最高分?jǐn)?shù)位居榜首,為大型語(yǔ)言模型(LLM)設(shè)定了黃金標(biāo)準(zhǔn)。但隨著排行榜的下滑,一個(gè)出人意料的劣勢(shì)故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表現(xiàn)出色,超越了驅(qū)動(dòng)ChatGPT免費(fèi)版本的GPT-3.5引擎。這意味著Anthropic開(kāi)發(fā)的每個(gè)大型語(yǔ)言模型都可以勝過(guò)ChatGPT的免費(fèi)版本。
LMSO通過(guò)其精細(xì)的排名系統(tǒng)為這些模型的性能指標(biāo)提供了見(jiàn)解。根據(jù)排行榜,GPT-4擁有1181的Arena Elo評(píng)分,遠(yuǎn)遠(yuǎn)領(lǐng)先于榜單,而Claude模型緊隨其后,評(píng)分從1119到1155不等。另一方面,GPT-3.5的評(píng)分為1115。
為了排名這些模型,LMSO讓它們?cè)谙嗨频奶崾鞠逻M(jìn)行“比賽”。給出最佳答案的模型獲勝,另一個(gè)模型失利。用戶根據(jù)自己的喜好決定誰(shuí)獲勝,但他們永遠(yuǎn)不會(huì)知道哪些模型在競(jìng)爭(zhēng)。
正如Decrypt之前報(bào)道的那樣,雖然這不是LMSO排名的因素,但在ChatGPT Plus和Claude Pro之間的token處理能力差異也是Claude模型勝過(guò)GPT的主要優(yōu)勢(shì)。
基于Claude2LLM的Claude Pro可以處理高達(dá)100,000個(gè)信息token,而由GPT-4LLM提供支持的ChatGPT Plus則處理8,192個(gè)令牌,"我們回顧道。這種令牌處理能力的差異突顯了Claude模型在處理廣泛上下文輸入方面的優(yōu)勢(shì),這對(duì)于細(xì)致和豐富的用戶體驗(yàn)至關(guān)重要。
此外,在處理長(zhǎng)提示時(shí),Claude2在效率上表現(xiàn)出優(yōu)勢(shì),可以更有效地處理更大規(guī)模的提示。然而,在提示可比較的情況下,Claude1和Claude Instant提供了與GPT-3.5相似或略優(yōu)的結(jié)果,展示了這些模型的競(jìng)爭(zhēng)性質(zhì)。借助Claude的上下文功能,初始不佳的答案可以通過(guò)更精細(xì)、更大和更豐富的提示得到顯著改進(jìn)。
開(kāi)源模型在這場(chǎng)競(jìng)賽中也不遑多讓。
WizardLM是一個(gè)在Meta的LlaMA-2上訓(xùn)練的擁有700億參數(shù)的最佳開(kāi)源LLM模型。緊隨其后的是Vicuna33B和由Meta發(fā)布的原始LlaMA-2。
開(kāi)源模型在AI領(lǐng)域的發(fā)展中發(fā)揮著重要作用,原因各種各樣。它們可以在本地運(yùn)行,使用戶有機(jī)會(huì)對(duì)其進(jìn)行微調(diào),并使社區(qū)參與到完善模型的集體努力中。由于許可證的原因,它們運(yùn)行成本更低,這就是為什么這個(gè)領(lǐng)域有數(shù)十種開(kāi)源LLM模型,而只有少數(shù)專(zhuān)有模型的原因。
但AI聊天機(jī)器人的比賽不僅僅關(guān)乎數(shù)字,還關(guān)乎現(xiàn)實(shí)世界的影響。
隨著聊天機(jī)器人在從客戶服務(wù)到個(gè)人助手等各個(gè)領(lǐng)域的逐漸融入,它們的效能、適應(yīng)性和準(zhǔn)確性變得至關(guān)重要。由于Claude模型在排名上超越了GPT-3.5,企業(yè)和個(gè)人用戶可能會(huì)發(fā)現(xiàn)自己在評(píng)估哪個(gè)模型最符合其需求時(shí)面臨抉擇。
(舉報(bào))