10 月 25 日,汽車行業(yè)AI產(chǎn)品和業(yè)務(wù)解決方案提供商易慧智能發(fā)布了汽車行業(yè)頭個大模型評測集。此次評測旨在全面評估市面上主流大模型在汽車行業(yè)中的實際應(yīng)用效果,特別關(guān)注于汽車營銷場景的應(yīng)用評估。在此基礎(chǔ)上,易慧智能重磅推出創(chuàng)新的模型路由技術(shù)方案——基于多模型的YiAgent群體智能技術(shù)框架。
此技術(shù)框架不僅融合了大模型路由技術(shù),還巧妙地將大模型庫、汽車行業(yè)大模型評測集以及YiAgent群體智能平臺這三個子系統(tǒng)整合為一個有機(jī)整體。在這個創(chuàng)新的技術(shù)框架中,大模型路由依據(jù)汽車大模型評測的效果,為YiAgent群體智能平臺中的每個Agent所負(fù)責(zé)的技能挑選出效果理想的模型,從而實現(xiàn)技能的特出化配置和效用比較大化。技術(shù)框架為企業(yè)客戶提供以多個大模型驅(qū)動的群體智能協(xié)同工作平臺,全力支持企業(yè)客戶實現(xiàn)智能化轉(zhuǎn)型。
應(yīng)對復(fù)雜場景需求多模型成為主流
鑒于當(dāng)下大模型使用場景的多樣性、任務(wù)復(fù)雜度的提升,以及垂直行業(yè)專業(yè)需求的特殊性,當(dāng)前無論是通用大模型還是垂直大模型,均展現(xiàn)出各自的局限性和不足。以內(nèi)容創(chuàng)作為例,此領(lǐng)域涵蓋了寫作、翻譯、知識問答、代碼輔助、邏輯推理等多個維度,對于不同任務(wù),各大模型表現(xiàn)差異較大,沒有一家大模型可在所有任務(wù)上均達(dá)到特出。這一現(xiàn)狀也為混合大模型的興起提供了契機(jī)。
混合大模型旨在將市場中的主流大模型進(jìn)行有機(jī)融合,針對特定任務(wù)需求,準(zhǔn)確調(diào)用表現(xiàn)特出的模型,以實現(xiàn)準(zhǔn)確解決特定問題的目標(biāo)。通過“專業(yè)分工,協(xié)同合作”的理念,混合大模型致力于比較大化各項任務(wù)的處理效能。近期, 360 公司推出的AI助手便是一個典型例證,該助手集成了國內(nèi) 15 家先進(jìn)大模型,構(gòu)建了CoE專家網(wǎng)絡(luò)模型,通過規(guī)?;馁Y源整合,集中各模型之優(yōu)勢,最終實現(xiàn)了更為卓越的性能與效率提升。
在汽車行業(yè)的營銷領(lǐng)域,其核心能力與任務(wù)包含行業(yè)知識的深度掌握、內(nèi)容創(chuàng)作的準(zhǔn)確定位、有效對話能力的展現(xiàn)、數(shù)據(jù)分析的精細(xì)處理以及智能體支持的全面覆蓋等多個維度。這些綜合且復(fù)雜的需求,對大模型的能力提出了很高的挑戰(zhàn),也使得當(dāng)前市場上的單一模型在應(yīng)對此類復(fù)雜場景與任務(wù)時顯得力不從心。而混合大模型方案的提出,則為解決這一系列難題提供了最為優(yōu)化和可行的思路。
汽車營銷領(lǐng)域頭個垂直行業(yè)大模型評測集
據(jù)悉,易慧智能作為聚焦汽車行業(yè)的AI產(chǎn)品和業(yè)務(wù)解決方案提供商,擁有海量的用戶行為數(shù)據(jù)和車型數(shù)據(jù),在汽車行業(yè)數(shù)字營銷、數(shù)字化轉(zhuǎn)型方面擁有企業(yè)級的深刻理解和豐富的應(yīng)用場景。易慧智能此次重磅發(fā)布汽車行業(yè)大模型評測集,并同步推出模型路由技術(shù)方案——基于多模型的YiAgent群體智能技術(shù)框架,這一舉措深刻體現(xiàn)了其在技術(shù)創(chuàng)新領(lǐng)域的領(lǐng)導(dǎo)地位,同時也是其堅定踐行以客戶為中心發(fā)展理念的重要里程碑。
作為汽車營銷領(lǐng)域頭個大模型評測集,易慧智能選擇了國內(nèi)外具有代表性的 8 個閉源/開源的模型以及自研大模型共 9 個模型。針對汽車營銷領(lǐng)域行業(yè)知識、內(nèi)容創(chuàng)作、對話能力、數(shù)據(jù)分析、智能體支持等 5 大核心能力和超過 20 個子任務(wù)能力進(jìn)行嚴(yán)格評測,并對每個評測類別制定獨特的評測標(biāo)準(zhǔn)和方法,原創(chuàng)評測題目超過 1000 道。
在評測過程中,易慧智能重點關(guān)注大模型在汽車營銷關(guān)鍵領(lǐng)域的表現(xiàn)。首先,就行業(yè)知識而言,評估大模型對汽車行業(yè)基礎(chǔ)知識的掌握深度,以及其在看車、選車、購車、使用等全流程中展現(xiàn)出的專業(yè)知識理解和應(yīng)用能力。
其次,在內(nèi)容創(chuàng)作方面,考察大模型汽車領(lǐng)域內(nèi)容生成能力,特別是其在撰寫汽車種草圖文、汽車短視頻文案等方面的表現(xiàn)。特別關(guān)注大模型在營銷內(nèi)容創(chuàng)作上的多樣性、準(zhǔn)確性,以及其對字?jǐn)?shù)、人設(shè)、場景等維度要求的指令遵循能力。
此外,在對話能力方面,測試大模型與用戶進(jìn)行自然語言交流的能力,包括但不限于語義理解、情緒識別、實體識別、對話推理等對話場景中的核心能力。
同時,數(shù)據(jù)分析也是評測的重要環(huán)節(jié)。易慧智能將考察大模型在處理和分析汽車行業(yè)相關(guān)數(shù)據(jù)方面的能力,如銷售數(shù)據(jù)、用戶行為數(shù)據(jù)等,并評估其在營銷決策支持中的應(yīng)用效果。具體的能力維度包括text2sql、指標(biāo)計算、圖表推薦以及報告撰寫等。
最后,在智能體支持方面,易慧智能將評估大模型在支持智能體進(jìn)行任務(wù)規(guī)劃、流程推理、工具檢索、參數(shù)理解以及工具使用等方面的能力,特別是在營銷自動化和個性化推薦中的實際應(yīng)用效果。
經(jīng)過此次嚴(yán)格評測,結(jié)果顯示無一模型能在所有能力上均排名靠前。其中,在汽車知識與對話能力方面,自主研發(fā)的大模型以82. 17 與80. 62 的高分脫穎而出。值得注意的是,盡管GPT-4o仍保持其領(lǐng)先地位,但國內(nèi)大模型正迅速追趕,差距正在逐步縮小。
此次評測結(jié)果還反映出通用大模型在應(yīng)對具有行業(yè)特性的任務(wù)時顯現(xiàn)出明顯的局限性。無論其源自國內(nèi)還是國外,相較于專為汽車領(lǐng)域定制的自研大模型,在汽車領(lǐng)域知識掌握及對話交互能力的核心指標(biāo)上,得分普遍較低。這一發(fā)現(xiàn)也揭示出當(dāng)前通用大模型在處理行業(yè)專屬任務(wù)時遭遇的瓶頸,尤其是在需要深度專業(yè)知識與準(zhǔn)確上下文解析的場景中更為凸顯。相比之下,行業(yè)大模型由于擁有針對性的訓(xùn)練與優(yōu)化,能夠更為準(zhǔn)確地捕捉并處理特定領(lǐng)域的專業(yè)知識與對話內(nèi)容。因此,針對專業(yè)性要求很高的行業(yè)應(yīng)用場景而言,選擇垂直大模型無疑是更為合理且有效的決策。
易慧智能CTO葉明登表示,易慧智能此次評測的目標(biāo)是提供一個全面、客觀的評估框架,幫助汽車行業(yè)的決策者和技術(shù)開發(fā)者更好地理解和利用大模型技術(shù),以實現(xiàn)汽車行業(yè)的智能化升級。特別是在營銷場景下,我們的評測集能夠更準(zhǔn)確地衡量大模型在實際商業(yè)環(huán)境中的表現(xiàn)和價值。
易慧智能CTO葉明登
在此次評測中表現(xiàn)優(yōu)異的自研大模型負(fù)責(zé)人同時也是易車副總裁張磊表示,自研大模型基于易車在汽車行業(yè)多年的深耕與積累,結(jié)合比較新的人工智能技術(shù),5T+的PT數(shù)據(jù),萬級SFT(Supervised Fine-Tuning,監(jiān)督微調(diào))數(shù)據(jù),DPO(Direct Preference Optimization,是一種用于對齊大模型與人類偏好的方法)安全對齊,實現(xiàn)了大模型在汽車領(lǐng)域的全場景支持、汽車知識及時更新、效果領(lǐng)跑,全面賦能汽車行業(yè)。此次評測結(jié)果的發(fā)布不僅揭示了大模型在汽車行業(yè)的應(yīng)用現(xiàn)狀,還突顯了行業(yè)大模型相較于通用大模型在指導(dǎo)技術(shù)決策、推動技術(shù)創(chuàng)新、促進(jìn)行業(yè)定制化、提升應(yīng)用效能、推動私有化部署等垂直領(lǐng)域的獨特優(yōu)勢。
易車副總裁張磊
模型路由技術(shù)方案切實提升群體智能協(xié)同平臺工作效能
此次易慧智能重磅推出的模型路由技術(shù)方案——基于多模型的YiAgent群體智能技術(shù)框架,作為一個有機(jī)系統(tǒng),包含了大模型庫、汽車行業(yè)大模型評測集、YiAgent群體智能平臺三個子系統(tǒng)。
子系統(tǒng)一——大模型庫優(yōu)選當(dāng)前主流大模型,通過定期的換入換出機(jī)制,緊跟當(dāng)前業(yè)內(nèi)比較新技術(shù)動態(tài)進(jìn)展。大模型庫中的所有大模型都會在大模型路由中進(jìn)行注冊,并統(tǒng)一訪問接口。為了滿足不同企業(yè)客戶對不同場景的業(yè)務(wù)需要,該大模型庫中覆蓋了各個維度的大模型,包括國內(nèi)模型和國外模型、商業(yè)模型和開源模型、Saas模型和可私有化部署模型、通用模型和行業(yè)模型,未來將持續(xù)增加更多的優(yōu)秀模型補(bǔ)充進(jìn)來。
考慮到各個外部模型的持續(xù)更新迭代,易慧智能會定期對大模型進(jìn)行升級迭代,尤其是微調(diào)參數(shù)量較小的模型,不斷提升模型效果,降低成本。
子系統(tǒng)二——汽車行業(yè)大模型評測集覆蓋行業(yè)最全面的基礎(chǔ)知識和營銷核心場景能力,可根據(jù)真實應(yīng)用場景實時更新評測數(shù)據(jù),定期刷新大模型庫中所有模型的評測結(jié)果,并將評測結(jié)果同步至大模型路由。
子系統(tǒng)三——YiAgent群體智能平臺可以根據(jù)任務(wù)動態(tài)選擇某個單體agent(數(shù)字員工)或者群體agent(數(shù)字員工團(tuán)隊)。Agent路由作為用戶需求的總?cè)肟?,?zhí)行“CEO”的角色。
單體agent(數(shù)字員工)完成任務(wù)所需不同技能可通過大模型路由動態(tài)選擇特出大模型。
在YiAgent群體智能平臺子系統(tǒng)中,大模型路由模塊承擔(dān)著為各項技能準(zhǔn)確匹配特出大模型的重任。鑒于各大模型在專長領(lǐng)域上的差異,系統(tǒng)依據(jù)評測結(jié)果,為每項技能分配表現(xiàn)最為出色的模型。在模型表現(xiàn)相近的情況下,系統(tǒng)秉持成本效益原則,優(yōu)先選用參數(shù)量較少的模型,以實現(xiàn)資源的特出化配置。此外,大模型路由模塊還兼具負(fù)載均衡功能,當(dāng)某一模型負(fù)載達(dá)到閾值時,能夠智能地將部分請求引導(dǎo)至次優(yōu)模型,確保服務(wù)的連續(xù)性與穩(wěn)定性,有效規(guī)避服務(wù)中斷的風(fēng)險。
據(jù)業(yè)內(nèi)佼佼者人士分析指出,模型路由技術(shù)方案的發(fā)布,為大模型在汽車營銷領(lǐng)域的實際部署與效能提升,開辟了一條相當(dāng)價值的參考途徑。此舉不僅強(qiáng)化了易慧智能在汽車AI產(chǎn)品與服務(wù)解決方案領(lǐng)域的優(yōu)勢地位,更將實質(zhì)性地推動AI技術(shù)在汽車行業(yè)內(nèi)的創(chuàng)新步伐,實現(xiàn)行業(yè)整體效率與客戶競爭力的顯著提升。
(推廣)