站長(zhǎng)之家(ChinaZ.com)8月7日 消息:近日,智源發(fā)布最強(qiáng)開源可商用中英文語(yǔ)義向量模型BGE(BAAI General Embedding),在中英文語(yǔ)義檢索精度與整體語(yǔ)義表征能力均超越了社區(qū)所有同類模型,如OpenAI 的text embedding002等。
此外,BGE 保持了同等參數(shù)量級(jí)模型中的最小向量維度,使用成本更低。
據(jù)介紹,中文語(yǔ)義向量綜合表征能力評(píng)測(cè) C-MTEB 的實(shí)驗(yàn)結(jié)果顯示,BGE中文模型(BGE-zh)在對(duì)接大語(yǔ)言模型最常用到的檢索能力上領(lǐng)先優(yōu)勢(shì)尤為顯著,檢索精度約為 OpenAI Text Embedding002的1.4倍。
與中文能力相類似,BGE 英文模型(BGE-en)的語(yǔ)義表征能力同樣出色。根據(jù)英文評(píng)測(cè)基準(zhǔn) MTEB 的評(píng)測(cè)結(jié)果(Table2),盡管社區(qū)中已有不少優(yōu)秀的基線模型,BGE 依然在總體指標(biāo)(Average)與檢索能力(Retrieval)兩個(gè)核心維度超越了此前開源的所有同類模型。
同時(shí),BGE 的各項(xiàng)能力都顯著超越社區(qū)中最為流行的選項(xiàng):OpenAI Text Embedding002。
BGE 模型鏈接:
https://huggingface.co/BAAI/
BGE 代碼倉(cāng)庫(kù):
https://github.com/FlagOpen/FlagEmbedding
C-MTEB 評(píng)測(cè)基準(zhǔn)鏈接:
https://github.com/FlagOpen/FlagEmbedding/tree/master/benchmark
(舉報(bào))