站長(zhǎng)之家(ChinaZ.com)2月21日 消息:近日,Google Gemini1.5推出了一項(xiàng)令人矚目的技術(shù)突破,該版本引入了一個(gè)擁有高達(dá)一百萬(wàn)個(gè)令牌的上下文窗口功能。這項(xiàng)新功能旨在處理完整的書(shū)籍甚至電影,其準(zhǔn)確性關(guān)注。
盡管Gemini1.5的上下文窗口容量龐大,但可能仍存在不準(zhǔn)確再現(xiàn)信息的可能性。在“海底撈針”測(cè)試中,該系統(tǒng)需要提取多達(dá)100條特定信息,但平均準(zhǔn)確度僅在60%至70這項(xiàng)任務(wù)相對(duì)于復(fù)雜文檔的摘要撰寫(xiě)而言仍然要簡(jiǎn)單一些。
值得一提的是,在谷歌對(duì)維克多·雨果的《悲慘世界》進(jìn)行的更復(fù)雜的測(cè)試中,他們提出了100個(gè)問(wèn)題,共涉及710,000個(gè)標(biāo)記,并使用“歸因于已識(shí)別來(lái)源”的方法進(jìn)行答案評(píng)估。結(jié)果顯示,在人工評(píng)估中,80% 的答案可歸因于源文檔,而在機(jī)器評(píng)估中則有91% 的答案可歸因于源文檔。然而,這一基準(zhǔn)傾向目前的權(quán)威及其與原著作者之間存在細(xì)微的差異。
在“大海撈針”測(cè)試中,模型必須在上下文窗口中找到一條信息。這與LLM的實(shí)際應(yīng)用場(chǎng)景關(guān)系不大。 |圖片:谷歌
盡管社交媒體上對(duì)Gemini1.5的積極評(píng)價(jià)絡(luò)并不絕,但即將對(duì)其準(zhǔn)確性進(jìn)行更深入的評(píng)估。大多數(shù)評(píng)論焦點(diǎn)于功能測(cè)試,缺乏對(duì)源材料的深入了解。如果信息檢索的可信度不高,即使在復(fù)雜的查詢下,巨大的上下文窗口可能仍然存在問(wèn)題。
可見(jiàn), Gemini1.5Pro 提供了令人印象深刻的技術(shù)突破,但在實(shí)踐中,提取復(fù)雜的信息仍然是一個(gè)挑戰(zhàn)。如果其可靠性低于90%,那么實(shí)際中的巨大容量的上下文窗口運(yùn)用中可能并不具備專業(yè)的幫助。
(舉報(bào))