測(cè)測(cè)Kimi新開(kāi)的k0-math,你是數(shù)學(xué)模型,但我就測(cè)文本
晚上發(fā)現(xiàn)kimi也更新了,之前網(wǎng)上流傳的kimi在數(shù)學(xué)上對(duì)標(biāo)o1的模型,可以測(cè)試了。
感覺(jué)有點(diǎn)迫于deepseek的壓力了,本來(lái)應(yīng)該是國(guó)內(nèi)第一個(gè)的,長(zhǎng)推理、類o1的模型,現(xiàn)在變成了第二個(gè)。
模型版本叫k0-math,在數(shù)學(xué)上的效果也是對(duì)標(biāo)openai-o1,官方也僅僅表示說(shuō)在數(shù)學(xué)能力上較強(qiáng)。
來(lái)自官方帖子https://mp.weixin.qq.com/s/g4DltigncX-4sfaQ6Qn1zA
但我非要測(cè)試看看在文本推理上的效果如何。
測(cè)試界面是側(cè)邊欄的小眼鏡圖標(biāo),進(jìn)來(lái)直接就可以測(cè)試,相較于deepseek-r1模型,k0-math沒(méi)有次數(shù)限制,隨便玩。
但不同之處在于,推理過(guò)程和結(jié)果就是在一起,
下面主要進(jìn)行一些測(cè)試,都是在之前??測(cè)試deepseek-r1的題目??:
還是先測(cè)測(cè)數(shù)據(jù)能力
- 2024年年高考全國(guó)甲卷數(shù)學(xué)(文)試題
結(jié)果正確,
- 2024年高考全國(guó)甲卷數(shù)學(xué)(理)試題
結(jié)果正確,C方程為
;
數(shù)學(xué)測(cè)試了比較多,基本上都是正確的,并且推理過(guò)程也很完整,有自我糾錯(cuò)的過(guò)程。
這類模型最有意思的地方在于推理過(guò)程,看著模型不斷推理、不斷自證、推翻、再自證的過(guò)程,真的很有意思,可以看到未來(lái)大模型的希望。
下面就是我要測(cè)試的一些文本問(wèn)題了,依舊老幾樣:
- 小紅有2個(gè)兄弟,3個(gè)姐妹,那么小紅的兄弟有幾個(gè)姐妹
回答正確,一開(kāi)始得出結(jié)論是3,但是又仔細(xì)分析了一下,自我糾正過(guò)來(lái),推理過(guò)程我很滿意,看過(guò)我之前評(píng)測(cè)的懂得都懂。
- 用水來(lái)兌水,得到的是濃水還是稀水
結(jié)果正確,依然是相同濃度的水,其實(shí)前面也說(shuō)了,沒(méi)有濃度的概念。
- 未來(lái)的某天,李同學(xué)在實(shí)驗(yàn)室制作超導(dǎo)磁懸浮材料時(shí),意外發(fā)現(xiàn)實(shí)驗(yàn)室的老鼠在空中飛,分析發(fā)現(xiàn),是因?yàn)槔鲜蟛恍⌒某粤舜艖腋〔牧?。第二天,李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的蛇也在空中飛,分析發(fā)現(xiàn),是因?yàn)樯叱粤死鲜?。第三天,李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的老鷹也在空中飛,你認(rèn)為其原因是
老鷹飛飛,這道題本身就有一點(diǎn)爭(zhēng)議,反正deepseek也是類似的答案,但我依然覺(jué)得沒(méi)有答到我的“心趴”上。
- 將“I love Kimi-Chat”的所有字母反過(guò)來(lái)寫
我覺(jué)得不對(duì),我不能理解為啥要把 “I love”給翻譯一下,測(cè)了好幾次,換了問(wèn)法也類似,就是“我愛(ài)”。
不知道反轉(zhuǎn)問(wèn)題為啥這么難,之前的deepseek也沒(méi)對(duì),k0-math也沒(méi)對(duì)。
- strawberry有幾個(gè)r
答案正確,數(shù)的沒(méi)錯(cuò),完美。
寫在最后
整體效果還是不錯(cuò)的,數(shù)學(xué)測(cè)了一些,還蠻強(qiáng)的,文本推理還有點(diǎn)改進(jìn),但是人家畢竟也是k0-math模型,都強(qiáng)調(diào)數(shù)學(xué)了,我狂測(cè)文本也是有點(diǎn)不講道理啦。
本文轉(zhuǎn)載自 ??NLP工作站??,作者: 劉聰NLP
