大模型長(zhǎng)文本能力測(cè)試,又有新方法了!騰訊MLPD實(shí)驗(yàn)室,用全新開(kāi)源的“數(shù)星星”方法替代了傳統(tǒng)的“大海撈針”測(cè)試。相比之下,新方法更注重對(duì)模型處理長(zhǎng)依賴關(guān)系能力的考察,對(duì)模型的評(píng)估更加全面精準(zhǔn)。利用這種方法,研究人員對(duì)GPT-4和國(guó)內(nèi)知名的Kimi Chat進(jìn)行了“數(shù)星星”測(cè)試。結(jié)
......
本文由站長(zhǎng)之家合作伙伴自媒體作者“量子位公眾號(hào)”授權(quán)發(fā)布于站長(zhǎng)之家平臺(tái),本平臺(tái)僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時(shí)間超過(guò)平臺(tái)更新維護(hù)時(shí)間,為了保證文章信息的及時(shí)性,內(nèi)容觀點(diǎn)的準(zhǔn)確性,平臺(tái)將不提供完全的內(nèi)容展現(xiàn),本頁(yè)面內(nèi)容僅為平臺(tái)搜索索引使用。需閱讀完整內(nèi)容的用戶,請(qǐng)查看原文,獲取內(nèi)容詳情。
(舉報(bào))