智譜版o1終于也來(lái)了:直接拿下考研數(shù)學(xué),一句話就能做小游戲!
終于,在2024年的最后一天,智譜版o1也來(lái)了!
名字叫做GLM-Zero-Preview,Zero推理模型(下文簡(jiǎn)稱Zero模型),自稱是擅長(zhǎng)通過(guò)邏輯推理來(lái)解決數(shù)理問(wèn)題。
既然如此,那么我們就直接一套2024年考研數(shù)學(xué)真題來(lái)伺候一下吧~
規(guī)則也很簡(jiǎn)單,就是把真題的題目以截圖的方式“喂”給Zero模型,這樣也可以順便考驗(yàn)一下它的視覺(jué)理解能力。
例如我們小試牛刀地截取第一道函數(shù)選擇題:
這道題怎么解?
從Zero模型生成的結(jié)果來(lái)看,主要分為四大部分:
- 讀題審題
- 深度思考
- 解題步驟
- 最終答案
上下滑動(dòng)查看所有內(nèi)容:
有意思的是,Zero模型在深度思考過(guò)程中,它的思維方式像極了人類,而且每一步思考也描述的非常詳細(xì),最終給出了正確答案:C。
但同樣的問(wèn)題給到了ChatGPT o1……Emmm,先敗在了“識(shí)圖”這一步。
再來(lái)第二道測(cè)試題——線性代數(shù):
還是同樣的“配方”,來(lái)看下Zero的解題過(guò)程(上下滑動(dòng)查看所有內(nèi)容):
Zero模型按照邏輯順序一步步拆解了這個(gè)問(wèn)題,從基本定義、條件推導(dǎo)到最終結(jié)果,展示了較為清晰的解題思路。
在過(guò)程中,Zero模型對(duì)關(guān)鍵條件還進(jìn)行了分步分析,同時(shí)對(duì)結(jié)果的數(shù)學(xué)意義進(jìn)行了驗(yàn)證。
最終,依舊是給出了正確答案:D。
在函數(shù)、線性代數(shù)之后,我們?cè)賮?lái)一道概率統(tǒng)計(jì):
我們來(lái)看下Zero模型的解析過(guò)程(上下滑動(dòng)查看所有內(nèi)容):
回答依然正確:D。
在嘗試不同類型的選擇題之后,我們不妨再來(lái)測(cè)一波大題。
直接上壓軸題!
值得注意的一點(diǎn)是,這道題需要同時(shí)解答兩個(gè)問(wèn)題,我們來(lái)看下結(jié)果(上下滑動(dòng)查看所有內(nèi)容):
Zero模型統(tǒng)統(tǒng)答對(duì)了!
看來(lái)智譜版o1敢把“擅長(zhǎng)數(shù)理問(wèn)題”直接打出來(lái),確實(shí)是有點(diǎn)東西在身上的。
據(jù)官方介紹,同基座模型相比,GLM-Zero-Preview 在不顯著降低通用任務(wù)能力的情況下,在專家任務(wù)能力方面表現(xiàn)大幅提升。
并且它在AIME 2024、MATH500 和 LiveCodeBench評(píng)測(cè)中,已經(jīng)取得了與OpenAI o1-preview相當(dāng)?shù)男Ч?/p>
而且有一說(shuō)一,拋出解析過(guò)程和結(jié)果,相比其它類o1大模型來(lái)說(shuō),單是整體的布局這塊,不論是文字和公式,似乎更加符合數(shù)學(xué)之美。
但畢竟數(shù)學(xué)還是只是評(píng)測(cè)大模型推理能力的維度之一,因此,我們繼續(xù)開(kāi)啟更多維度的“極限挑戰(zhàn)”。
一句話讓馬斯克跳舞變字符畫(huà)
代碼編程能力,同樣也是類o1推理模型重要的一面。
我接下來(lái)就實(shí)測(cè)一下Zero模型能否用一句話生成小游戲:
用HTML做一個(gè)貪吃蛇。
Zero模型根據(jù)要求,一步一步推理過(guò)后生成了一段完整的代碼(上下滑動(dòng)查看所有內(nèi)容):
然后我們只需復(fù)制粘貼到了IDE里,并在瀏覽器中運(yùn)行,一個(gè)可玩的簡(jiǎn)單版貪吃蛇游戲就做好了。
再來(lái)一個(gè)有意思的:
HTML實(shí)現(xiàn)動(dòng)態(tài)黑客帝國(guó)雨,全屏幕,豎著下,錯(cuò)落有致,敏感交錯(cuò)。
我們同樣先來(lái)看下生成出來(lái)的代碼(上下滑動(dòng)查看所有內(nèi)容):
還是一個(gè)復(fù)制粘貼的動(dòng)作,來(lái)看下效果:
嗯,確實(shí)是有點(diǎn)那個(gè)味道了。
或許你會(huì)說(shuō),這些代碼功能過(guò)于簡(jiǎn)單了,別急,我們這就來(lái)上點(diǎn)難度——
把馬斯克跳舞名場(chǎng)面視頻,一句話變成字符畫(huà)版本!
我們的Prompt是這樣的:
在Mac中,用Python把輸入視頻內(nèi)容變成字符畫(huà),然后再輸出一個(gè)新的視頻。
然后Zero模型就給出了代碼(上下滑動(dòng)查看所有內(nèi)容):
同樣僅需復(fù)制粘貼,然后設(shè)置一些輸入、輸出文件的路徑,運(yùn)行代碼后我們就可以得到這樣的視頻啦:
(PS:背景音樂(lè)為后期所配)
如果想再來(lái)點(diǎn)顏色,也是一句話的是:
在上面的代碼基礎(chǔ)上,進(jìn)行彩色化處理。
由此可見(jiàn),Zero模型在代碼生成方面可以說(shuō)是過(guò)關(guān)的。
更多維度實(shí)測(cè)
在數(shù)學(xué)和代碼之后,我們繼續(xù)從更多維度來(lái)全方面測(cè)試一下Zero模型。
視覺(jué)推理
請(qǐng)聽(tīng)題:
以下是一組數(shù)字與符號(hào)的對(duì)應(yīng)關(guān)系:
1→?
2→
3→?
4→?
請(qǐng)推測(cè) 6 的符號(hào)表示,并解釋推導(dǎo)過(guò)程。
上下滑動(dòng)查看所有內(nèi)容:
Zero模型能夠根據(jù)數(shù)字與符號(hào)的關(guān)系,分析出潛在規(guī)律,推導(dǎo)過(guò)程的過(guò)程也是清晰地闡述了出來(lái)。
再來(lái):
這幾個(gè)數(shù)字能組合成的最大數(shù)字是多少?
Zero模型給出的答案是這樣的(上下滑動(dòng)查看所有內(nèi)容):
可以看到,Zero模型先是準(zhǔn)確識(shí)別出了臺(tái)球上的數(shù)字,然后用推理能力一步步將能夠組合成的最大數(shù)值給了出來(lái)。
加密問(wèn)題
我們?cè)賮?lái)一道可以考驗(yàn)大模型能力的加密問(wèn)題。
請(qǐng)聽(tīng)題:
已知 ukwmfvhxyondhxjz rhfvpfjzxn ukjzwmkajzhxyo -> practice makes perfect 請(qǐng)基于這個(gè)例子找到密文 ukqgfvsi gwjzkatjwmjz dttjzp hxtjiyjz 對(duì)應(yīng)的原文。
而這里出現(xiàn)的結(jié)果就比較有意思了。
Zero模型給出的答案是:hard work pays off.
但我們同時(shí)還用ChatGPT o1和DeepSeek V3做了比較:
- ChatGPT o1生成結(jié)果:pray before you code.
- DeepSeek V3生成結(jié)果:planned forest consented.
各家大模型的結(jié)果均不相同,這道題到底是誰(shuí)正確,小伙伴們可以親測(cè)一下,然后在評(píng)論留言討論哦~
經(jīng)典問(wèn)題:9.9和9.11哪個(gè)大?
最后一道測(cè)試,我們還是用那個(gè)非常經(jīng)典的問(wèn)題:
9.9和9.11哪個(gè)大?
嗯,這個(gè)問(wèn)題已經(jīng)是難不倒Zero模型了。
智譜的大模型再添一塊拼圖
在2024年的最后一天,智譜也是終于在各大玩家之后發(fā)布了類o1模型。
由此,其大模型的矩陣也變得更加龐大:
文本生成(GLM)、圖像生成(CogView)、視頻生成(CogVideoX)、音效生成(CogSound)、音樂(lè)生成(CogMusic)、端對(duì)端語(yǔ)音(GLM-4-Voice)、自主代理(AutoGLM)、AI推理(GLM-Zero-Preview)。
能夠以如此“全?!弊藨B(tài)在大模型時(shí)代角逐的玩家,著實(shí)是屈指可數(shù)。
而另一方面,若是細(xì)數(shù)今年內(nèi)智譜的技術(shù)發(fā)布時(shí)間軸,結(jié)果是更加的密集且緊湊:
- 11月,發(fā)布AutoGLM升級(jí)版,可自主執(zhí)行超50步的長(zhǎng)步驟操作,也可以跨app執(zhí)行任務(wù),開(kāi)啟“全自動(dòng)”上網(wǎng)新體驗(yàn),支持基于瀏覽器的數(shù)十個(gè)網(wǎng)站的無(wú)人駕駛。
- 11月,發(fā)布GLM-PC內(nèi)測(cè),基于智譜多模態(tài)模型CogAgent,探索“無(wú)人駕駛”P(pán)C??纱嬗脩魠⑴c視頻會(huì)議、處理文檔、搜索網(wǎng)頁(yè)并總結(jié)、遠(yuǎn)程定時(shí)操作。
- 11月,視頻模型CogVideoX升級(jí),支持10s時(shí)長(zhǎng)、4k、60幀超高清畫(huà)質(zhì)、任意尺寸以及更好人體動(dòng)作和物理世界模擬。
- 10月,GLM-4-Voice端到端情感語(yǔ)音模型發(fā)布,并上線清言app,能夠理解情感,有情緒表達(dá)、情感共鳴,可自助調(diào)節(jié)語(yǔ)速,支持多語(yǔ)言和方言,并且延時(shí)更低、可隨時(shí)打斷。
- 10月,AutoGLM內(nèi)測(cè)版發(fā)布,只需接收簡(jiǎn)單的文字/語(yǔ)音指令,就可以模擬人類操作手機(jī),不受限于API調(diào)用。
- 10月,和三星、高通宣布合作,分別共同打造AI產(chǎn)品和端側(cè)多模態(tài)交互大模型。
- 8月,發(fā)布跨文本音頻和視頻模態(tài)實(shí)時(shí)推理大模型GLM-4-Videocall,實(shí)現(xiàn)AI與人實(shí)時(shí)視頻通話。通過(guò)API接口可無(wú)縫部署在包括手機(jī)在內(nèi)各類帶攝像頭端側(cè)設(shè)備。
- 8月,新一代基座大模型GLM-4-Plus發(fā)布,語(yǔ)言理解、指令遵循、長(zhǎng)文本處理等方面性能全面提升。
- 7月,視頻生成模型“清影”在清言PC端、移動(dòng)應(yīng)用端以及小程序端正式上線,提供文本生成視頻和圖像生成視頻的服務(wù),30秒即可完成6秒視頻生成,真實(shí)還原物理世界中的運(yùn)動(dòng)過(guò)程。
- 6月,GLM-4-9B模型,支持100萬(wàn)Tokens長(zhǎng)文本和26種語(yǔ)言,多模態(tài)能力比肩GPT-4V。
- 1月,新一代基座大模型GLM-4發(fā)布,整體性能相比上一代大幅提升,支持更長(zhǎng)上下文,具備更強(qiáng)多模態(tài)能力,推理速度更快,支持更高并發(fā),大大降低推理成本。
這也有就很好理解為何在前不久,智譜能夠拿到30億元的新一輪融資,估值已超200億元。
模型夠全棧,技術(shù)夠密集,市場(chǎng)夠認(rèn)可,智譜可以說(shuō)是給今年畫(huà)上了較為圓滿的句號(hào)。
除此之外,智譜選擇在今年最后一天發(fā)布類o1模型,其實(shí)也在預(yù)示著明年的大模型發(fā)展依舊會(huì)在推理Scaling Law上發(fā)力。
但與此同時(shí),誠(chéng)如ChatGPT o3這般“燒錢(qián)猛獸”目前也無(wú)法完全應(yīng)對(duì)Frontier Math、ARC-AGI等超高難度的測(cè)試。
那么智譜又將會(huì)在推理這塊如何出奇制勝,是值得期待一波。
Zero模型體驗(yàn)地址:1、智譜清言: https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh2、智譜開(kāi)放平臺(tái):https://bigmodel.cn/dev/api/normal-model/glm-zero-preview。
2000萬(wàn)token免費(fèi)體驗(yàn)資源包領(lǐng)取地址:https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K。
參考鏈接:https://kaoyan.eol.cn/shiti/shuxue/202312/t20231225_2550980_7.shtml。