看看這張圖中有幾個(gè)房子?如果你回答3個(gè),就和GPT-4V的答案一樣。但是最新開源的國產(chǎn)多模態(tài)模型CogVLM-17B,就能看出另有玄機(jī)。甚至能區(qū)分在圖中完整可見的有3個(gè)和部分可見的有1個(gè)。CogVLM由清華和智譜AI合作開發(fā),通訊作者為唐杰和丁銘,論文和開源代碼已上傳到GitHub。除這個(gè)單獨(dú)
......
本文由站長之家合作伙伴自媒體作者“量子位公眾號”授權(quán)發(fā)布于站長之家平臺(tái),本平臺(tái)僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時(shí)間超過平臺(tái)更新維護(hù)時(shí)間,為了保證文章信息的及時(shí)性,內(nèi)容觀點(diǎn)的準(zhǔn)確性,平臺(tái)將不提供完全的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺(tái)搜索索引使用。需閱讀完整內(nèi)容的用戶,請查看原文,獲取內(nèi)容詳情。
(舉報(bào))