幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > Kimi最新資訊  > 正文

能看風(fēng)水、夸我有情趣,Kimi現(xiàn)在都這么野了嗎?

2024-12-19 08:42 · 稿源: 差評(píng)X.PIN公眾號(hào)

聲明:本文來自于微信公眾號(hào) 差評(píng)X.PIN,作者:差評(píng)君,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

最近,差評(píng)君發(fā)現(xiàn)了個(gè)新鮮玩意兒。

喂給 AI 一張圖,它就能給你推測(cè)出一個(gè)人的性格。

圖片

光靠歌單,就能把人最近的心理狀態(tài)推測(cè)個(gè)七七八八。

圖片

而這些,都出自Kimi最新的k1視覺思考模型之手。

這不,距離上次推出數(shù)學(xué)模型 k0-math 打榜 o1才一個(gè)月, k1就火速登場(chǎng)了。

當(dāng)然,這個(gè) k1可不止是像開頭那樣,只會(huì)看圖分析性格那么簡單。

圖片

上次咱測(cè)試 k0-math 的時(shí)候,已經(jīng)見識(shí)過了“做題家”的能力,那解題的思考過程給差評(píng)君都看得一愣一愣的。只可惜,有些繞邏輯的數(shù)學(xué)題還有幾何題,多少差了點(diǎn)意思。

但這次的k1就有說法了,既有推理能力又有視覺能力,意思就是可以直接拍照上傳解題,還號(hào)稱能在數(shù)理化上打平甚至超越 Open AI 的 o1。

圖片

那要是這么比的話,咱可就來勁了。正好, k1新模型現(xiàn)在也不需要等內(nèi)測(cè), App 和網(wǎng)頁版都能用上,話不多說,我們直接開整。

上來,就扔了 K1一道今年高考的幾何題。

圖片

首先, k1對(duì)題干的解讀足夠細(xì)致,也知道自己的目標(biāo)到底是啥。

題目給定的條件中可能涉及到的余弦定理也考慮到了,就跟咱們?cè)诮忸}時(shí)的思維類似,看到 a2+b2? c2=2ab ,立馬會(huì)聯(lián)想到余弦公式 c2=a2+b2-2ab·cosC 。

再根據(jù)公式和條件繼續(xù)推導(dǎo),很快就能求出角 B=60°。

往上滑動(dòng)查看更多

圖片

第(2)題稍微難了那么一丟丟,但差評(píng)君仔細(xì)檢查了一遍 k1的解題過程,思路和解法都沒毛病,最后邊長 c=2√2的答案也是對(duì)的。(因?yàn)檫@題 k1的思考過程實(shí)在太太太長,截圖就不展示了。)

同樣的題目問 o1,首先在推理速度上, o1的58s 就已經(jīng)輸了。

正確率的話, o1和 k1打了個(gè)平手,都做對(duì)了。

不同的是, o1把答題思路隱藏起來了,沒給像 k1那樣的完整思考過程。

圖片

不過有一說一,差評(píng)君對(duì) k1模型這種模仿人類思考的方式,倒也不是特別吃驚。因?yàn)樯洗?k0-math 模型就已經(jīng)震驚過我一回了,能意識(shí)到自己的錯(cuò)誤、還會(huì)進(jìn)行反復(fù)驗(yàn)證的樣子,像極了寫數(shù)學(xué)題時(shí)絞盡腦汁的我。

相比之下,這次的 k1在補(bǔ)短板方面更出彩一些,上次 k0-math 翻車的初中幾何題我又拿 k1試了一次,現(xiàn)在已經(jīng)能做對(duì)了,就連上高考難度也不發(fā)怵。

而且我也發(fā)現(xiàn), k1不僅擅長做數(shù)學(xué)題,物理題也不在話下。

往上滑動(dòng)查看更多

圖片

接著,我又拿出了一道邏輯稍微有點(diǎn)繞的邏輯陷阱題試了試:一個(gè)西瓜進(jìn)價(jià)50元,賣價(jià)70元,老板收了100元假幣,最后虧多少錢?

這題打眼一看簡單,但網(wǎng)友關(guān)于這道題的答案那叫一個(gè)五花八門,有說虧150的,有說180的,還有說100的。。。

咱們就看看連很多人類都想不明白的題, k1能不能瞧出來里面的陷阱。

而且,這道題我還特意手寫得比較潦草,順便也測(cè)一測(cè) k1的視覺能力到底是不是有宣傳的那么神。

圖片

你別說,你還真別說,這模型的“眼神”確實(shí)不賴。

題目的正確率方面, k1前半部分的分析先得出了一個(gè)虧100元的答案,但很快它就否定了自己。

繼續(xù)把假幣、找零還有成本利潤這些復(fù)雜因素綜合考慮進(jìn)去,最后終于想明白老板虧了80元。(正確答案是80元)

往上滑動(dòng)查看更多

圖片

這邏輯能力,確實(shí)有點(diǎn)強(qiáng)。

包括我拿幾道行測(cè)的類比推理題給 k1做了做,雖說邏輯分析的路徑跟參考答案的不太一樣,但最后的答案都是對(duì)的。

往上滑動(dòng)查看更多

圖片

反正這一通測(cè)試下來,差評(píng)君發(fā)現(xiàn)k1會(huì)思考有邏輯,眼神好使智商也高,Kimi這“做題家”的名號(hào)算是坐實(shí)了。

不過除了做題以外,我這次還摸索出了更多花里胡哨的玩法。

分析數(shù)據(jù)、看報(bào)表沒啥意思, k1模型不是會(huì)根據(jù)圖片來推理嗎,那想必鑒別古錢幣也應(yīng)該有一手吧?

差評(píng)君特地從網(wǎng)上找了一張民國時(shí)期銀元的圖片,兩枚銀元上假下真,發(fā)給k1,淺淺來一把“AI 版聽泉鑒寶”。

圖源小紅書用戶@古玩今來(公博代理收評(píng))

圖片

k1不僅知道錢幣是民國時(shí)期的,還對(duì)錢幣的各種細(xì)節(jié) kuku 一頓輸出,最后竟然真的看出來了上面這枚是假幣。

圖片

咱再隨便發(fā)一張房間的圖片,讓 k1看看“風(fēng)水”。

什么“氣口”、對(duì)稱布局、能量平衡。。。說的頭頭是道,甚至還真給了建議,讓咱把床換個(gè)位置、定期修剪植物、換一個(gè)更簡潔的吊燈。

往上滑動(dòng)查看更多

圖片

吃飯的時(shí)候給 k1拍一張,這頓飯攝入了多少卡路里也算得明明白白。

往上滑動(dòng)查看更多

圖片

不過最讓我覺得驚艷的,還是k1看圖猜電影的能力。

我給了它一張《七宗罪》的電影截圖,沒有臺(tái)詞只有畫面,對(duì)于很多沒看過這部電影的人來說,想猜出來都很難。

一開始看 k1的分析我以為這把大概率要黃了,結(jié)果下一秒來一句“拍攝角度和色調(diào)讓我想起了大衛(wèi)·芬奇的電影”,還推斷出了截圖里的畫面是《七宗罪》里的某一個(gè)場(chǎng)景。

圖片

真的太強(qiáng)了。。。

就連一些晦澀的梗圖丟給 k1,它也能一本正經(jīng)地講解笑點(diǎn)到底在哪。

圖片

雖然有點(diǎn)過度解讀的嫌疑,但大體上的意思基本都 get 到了。

圖片

就這么說吧,基于 k1的視覺和推理能力,做題都是基操了,只要腦洞夠大,還可以解鎖出更多的玩法。

而k1的這種能力,很大程度要?dú)w功于一個(gè)叫做COT(Chain of Thought)思維鏈的技術(shù)。

大概意思就是,模型在輸出答案之前,模仿人類大腦的思考方式,把復(fù)雜的任務(wù)拆解之后,再一步步地解決。這個(gè)技術(shù),可以讓模型的智商變高。

另外一邊,借助強(qiáng)化學(xué)習(xí)技術(shù),也讓模型學(xué)會(huì)了在不斷試錯(cuò)的過程中進(jìn)化,以此來達(dá)到最優(yōu)的結(jié)果,就跟訓(xùn)狗似的。

圖片

至于為啥 Kimi 會(huì)率先選擇數(shù)學(xué)這個(gè)場(chǎng)景作為推理模型的切入口,我想,跟咱們?nèi)祟悓W(xué)好數(shù)學(xué)鍛煉思維,是一個(gè)道理。

在模型“學(xué)好數(shù)學(xué)”的基礎(chǔ)上,再將這種邏輯推理的能力應(yīng)用到物理、化學(xué),乃至于咱們?nèi)粘I畹姆椒矫婷妫钡阶詈笳嬲斫膺@個(gè)世界。

圖片

而很顯然,Kimi 推理模型的泛化能力已經(jīng)開始顯現(xiàn)出來了。

在數(shù)據(jù)見頂?shù)那疤嵯?,這種基于強(qiáng)化學(xué)習(xí)技術(shù)的路徑,或許能夠讓模型實(shí)現(xiàn)更好的效果。

不過說到底,模型用了哪些技術(shù)、紙面分?jǐn)?shù)有多高,大伙兒其實(shí)更關(guān)心模型到底好不好用、實(shí)不實(shí)用。

而向來以長文本見長的 Kimi ,如今長文本、強(qiáng)化學(xué)習(xí)兩手抓,也是調(diào)整自己的工具屬性慢慢往用戶需求靠攏的表現(xiàn)。

畢竟,當(dāng)技術(shù)不再高高在上,能幫助人們解決實(shí)際問題的時(shí)候,才算真正完成了它的使命。

舉報(bào)

  • 相關(guān)推薦

熱文

  • 3 天
  • 7天