7月9日,國內(nèi)權(quán)威大模型評測機構(gòu)SuperCLUE發(fā)布《中文大模型基準測評2024上半年報告》,360智腦大模型(360gpt2-pro)在SuperCLUE基準6月測評中,取得總分72分,超過GPT-3.5-Turbo-0125,位列國內(nèi)大模型第4名次,穩(wěn)居大模型第一梯隊,并入選SuperCLUE“卓越領(lǐng)導者”模型象限。
《中文大模型基準測評2024上半年報告》選取國內(nèi)外具有代表性的33個大模型,采用多維度、多層次的綜合性測評方案,通過理科、文科和Hard三大維度真實反映大模型通用能力。報告顯示,國內(nèi)大模型市場已形成三大梯隊的格局,360gpt2-pro位列第一梯隊,并憑借在基礎(chǔ)和場景應用上的領(lǐng)先能力,入選“卓越領(lǐng)導者”模型象限,以快速迭代、技術(shù)積累或資源優(yōu)勢引領(lǐng)國內(nèi)大模型發(fā)展,不斷壓縮國內(nèi)外大模型差距。
值得關(guān)注的是,360gpt2-pro在文科方面取得75分的亮眼成績,排名第2,其中生成創(chuàng)作單項排名第1,與GPT-4o處于同一水平。相較其他國內(nèi)外頭部大模型,360智腦大模型在高語言處理質(zhì)量、內(nèi)容生成及理解水平等文科任務上擁有更強的競爭力。
在SuperCLUE中文檢索增強生成測評中,360智腦RAG排名第4,進一步縮小國內(nèi)外模型差距,體現(xiàn)了在中文檢索生成能力上的競爭力。此前,360宣布開源兩款大模型360Zhinao-search和360Zhinao-1.8B-Reranking,兩款模型聚焦于提升長文本檢索效果,在RAG技術(shù)的檢索、排序階段進行模型優(yōu)化,結(jié)合此前開源的360K長文本能力,全面打通了RAG技術(shù)鏈路,為行業(yè)提供可靠的降低大模型“幻覺”概率的能力。
據(jù)了解,360智腦大模型目前已形成多參數(shù)、多模態(tài)、多場景應用的大模型矩陣,首批通過國家標準符合性測試,綜合能力位列大模型第一梯隊。此外,360不斷夯實技術(shù)能力的同時,加速模型能力應用,打造新場景新應用,去解決用戶剛需和痛點。今年以來,360重塑國民級產(chǎn)品,相繼推出360AI瀏覽器、360AI搜索等產(chǎn)品,其中360AI搜索連續(xù)登榜全球AI產(chǎn)品數(shù)據(jù)增速榜榜首,領(lǐng)跑國內(nèi)AI搜索引擎市場。
(推廣)