聲明:本文來自于微信公眾號(hào) 差評(píng)X.PIN,作者:差評(píng)君,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
最近,差評(píng)君發(fā)現(xiàn)了個(gè)新鮮玩意兒。
喂給 AI 一張圖,它就能給你推測(cè)出一個(gè)人的性格。
光靠歌單,就能把人最近的心理狀態(tài)推測(cè)個(gè)七七八八。
而這些,都出自Kimi最新的k1視覺思考模型之手。
這不,距離上次推出數(shù)學(xué)模型 k0-math 打榜 o1才一個(gè)月, k1就火速登場(chǎng)了。
當(dāng)然,這個(gè) k1可不止是像開頭那樣,只會(huì)看圖分析性格那么簡單。
上次咱測(cè)試 k0-math 的時(shí)候,已經(jīng)見識(shí)過了“做題家”的能力,那解題的思考過程給差評(píng)君都看得一愣一愣的。只可惜,有些繞邏輯的數(shù)學(xué)題還有幾何題,多少差了點(diǎn)意思。
但這次的k1就有說法了,既有推理能力又有視覺能力,意思就是可以直接拍照上傳解題,還號(hào)稱能在數(shù)理化上打平甚至超越 Open AI 的 o1。
那要是這么比的話,咱可就來勁了。正好, k1新模型現(xiàn)在也不需要等內(nèi)測(cè), App 和網(wǎng)頁版都能用上,話不多說,我們直接開整。
上來,就扔了 K1一道今年高考的幾何題。
首先, k1對(duì)題干的解讀足夠細(xì)致,也知道自己的目標(biāo)到底是啥。
題目給定的條件中可能涉及到的余弦定理也考慮到了,就跟咱們?cè)诮忸}時(shí)的思維類似,看到 a2+b2? c2=2ab ,立馬會(huì)聯(lián)想到余弦公式 c2=a2+b2-2ab·cosC 。
再根據(jù)公式和條件繼續(xù)推導(dǎo),很快就能求出角 B=60°。
往上滑動(dòng)查看更多
第(2)題稍微難了那么一丟丟,但差評(píng)君仔細(xì)檢查了一遍 k1的解題過程,思路和解法都沒毛病,最后邊長 c=2√2的答案也是對(duì)的。(因?yàn)檫@題 k1的思考過程實(shí)在太太太長,截圖就不展示了。)
同樣的題目問 o1,首先在推理速度上, o1的58s 就已經(jīng)輸了。
正確率的話, o1和 k1打了個(gè)平手,都做對(duì)了。
不同的是, o1把答題思路隱藏起來了,沒給像 k1那樣的完整思考過程。
不過有一說一,差評(píng)君對(duì) k1模型這種模仿人類思考的方式,倒也不是特別吃驚。因?yàn)樯洗?k0-math 模型就已經(jīng)震驚過我一回了,能意識(shí)到自己的錯(cuò)誤、還會(huì)進(jìn)行反復(fù)驗(yàn)證的樣子,像極了寫數(shù)學(xué)題時(shí)絞盡腦汁的我。
相比之下,這次的 k1在補(bǔ)短板方面更出彩一些,上次 k0-math 翻車的初中幾何題我又拿 k1試了一次,現(xiàn)在已經(jīng)能做對(duì)了,就連上高考難度也不發(fā)怵。
而且我也發(fā)現(xiàn), k1不僅擅長做數(shù)學(xué)題,物理題也不在話下。
往上滑動(dòng)查看更多
接著,我又拿出了一道邏輯稍微有點(diǎn)繞的邏輯陷阱題試了試:一個(gè)西瓜進(jìn)價(jià)50元,賣價(jià)70元,老板收了100元假幣,最后虧多少錢?
這題打眼一看簡單,但網(wǎng)友關(guān)于這道題的答案那叫一個(gè)五花八門,有說虧150的,有說180的,還有說100的。。。
咱們就看看連很多人類都想不明白的題, k1能不能瞧出來里面的陷阱。
而且,這道題我還特意手寫得比較潦草,順便也測(cè)一測(cè) k1的視覺能力到底是不是有宣傳的那么神。
你別說,你還真別說,這模型的“眼神”確實(shí)不賴。
題目的正確率方面, k1前半部分的分析先得出了一個(gè)虧100元的答案,但很快它就否定了自己。
繼續(xù)把假幣、找零還有成本利潤這些復(fù)雜因素綜合考慮進(jìn)去,最后終于想明白老板虧了80元。(正確答案是80元)
往上滑動(dòng)查看更多
這邏輯能力,確實(shí)有點(diǎn)強(qiáng)。
包括我拿幾道行測(cè)的類比推理題給 k1做了做,雖說邏輯分析的路徑跟參考答案的不太一樣,但最后的答案都是對(duì)的。
往上滑動(dòng)查看更多
反正這一通測(cè)試下來,差評(píng)君發(fā)現(xiàn)k1會(huì)思考有邏輯,眼神好使智商也高,Kimi這“做題家”的名號(hào)算是坐實(shí)了。
不過除了做題以外,我這次還摸索出了更多花里胡哨的玩法。
分析數(shù)據(jù)、看報(bào)表沒啥意思, k1模型不是會(huì)根據(jù)圖片來推理嗎,那想必鑒別古錢幣也應(yīng)該有一手吧?
差評(píng)君特地從網(wǎng)上找了一張民國時(shí)期銀元的圖片,兩枚銀元上假下真,發(fā)給k1,淺淺來一把“AI 版聽泉鑒寶”。
圖源小紅書用戶@古玩今來(公博代理收評(píng))
k1不僅知道錢幣是民國時(shí)期的,還對(duì)錢幣的各種細(xì)節(jié) kuku 一頓輸出,最后竟然真的看出來了上面這枚是假幣。
咱再隨便發(fā)一張房間的圖片,讓 k1看看“風(fēng)水”。
什么“氣口”、對(duì)稱布局、能量平衡。。。說的頭頭是道,甚至還真給了建議,讓咱把床換個(gè)位置、定期修剪植物、換一個(gè)更簡潔的吊燈。
往上滑動(dòng)查看更多
吃飯的時(shí)候給 k1拍一張,這頓飯攝入了多少卡路里也算得明明白白。
往上滑動(dòng)查看更多
不過最讓我覺得驚艷的,還是k1看圖猜電影的能力。
我給了它一張《七宗罪》的電影截圖,沒有臺(tái)詞只有畫面,對(duì)于很多沒看過這部電影的人來說,想猜出來都很難。
一開始看 k1的分析我以為這把大概率要黃了,結(jié)果下一秒來一句“拍攝角度和色調(diào)讓我想起了大衛(wèi)·芬奇的電影”,還推斷出了截圖里的畫面是《七宗罪》里的某一個(gè)場(chǎng)景。
真的太強(qiáng)了。。。
就連一些晦澀的梗圖丟給 k1,它也能一本正經(jīng)地講解笑點(diǎn)到底在哪。
雖然有點(diǎn)過度解讀的嫌疑,但大體上的意思基本都 get 到了。
就這么說吧,基于 k1的視覺和推理能力,做題都是基操了,只要腦洞夠大,還可以解鎖出更多的玩法。
而k1的這種能力,很大程度要?dú)w功于一個(gè)叫做COT(Chain of Thought)思維鏈的技術(shù)。
大概意思就是,模型在輸出答案之前,模仿人類大腦的思考方式,把復(fù)雜的任務(wù)拆解之后,再一步步地解決。這個(gè)技術(shù),可以讓模型的智商變高。
另外一邊,借助強(qiáng)化學(xué)習(xí)技術(shù),也讓模型學(xué)會(huì)了在不斷試錯(cuò)的過程中進(jìn)化,以此來達(dá)到最優(yōu)的結(jié)果,就跟訓(xùn)狗似的。
至于為啥 Kimi 會(huì)率先選擇數(shù)學(xué)這個(gè)場(chǎng)景作為推理模型的切入口,我想,跟咱們?nèi)祟悓W(xué)好數(shù)學(xué)鍛煉思維,是一個(gè)道理。
在模型“學(xué)好數(shù)學(xué)”的基礎(chǔ)上,再將這種邏輯推理的能力應(yīng)用到物理、化學(xué),乃至于咱們?nèi)粘I畹姆椒矫婷妫钡阶詈笳嬲斫膺@個(gè)世界。
而很顯然,Kimi 推理模型的泛化能力已經(jīng)開始顯現(xiàn)出來了。
在數(shù)據(jù)見頂?shù)那疤嵯?,這種基于強(qiáng)化學(xué)習(xí)技術(shù)的路徑,或許能夠讓模型實(shí)現(xiàn)更好的效果。
不過說到底,模型用了哪些技術(shù)、紙面分?jǐn)?shù)有多高,大伙兒其實(shí)更關(guān)心模型到底好不好用、實(shí)不實(shí)用。
而向來以長文本見長的 Kimi ,如今長文本、強(qiáng)化學(xué)習(xí)兩手抓,也是調(diào)整自己的工具屬性慢慢往用戶需求靠攏的表現(xiàn)。
畢竟,當(dāng)技術(shù)不再高高在上,能幫助人們解決實(shí)際問題的時(shí)候,才算真正完成了它的使命。
(舉報(bào))