哪里不會掃哪里!全球最強數(shù)學大模型發(fā)布人人可玩Demo,阿里多模態(tài)模型加持,中文適用
現(xiàn)在,最強數(shù)學大模型,人人都可上手玩了!
一覺醒來,阿里千問大模型團隊發(fā)布了Qwen2-Math的Demo,抱抱臉在線可玩。
驚喜的是,如果嫌輸入數(shù)學公式比較麻煩,可以把想問的題截圖or掃描,上傳即可解題。
整得挺方便。
試玩界面上明確寫著,“這個試玩界面的OCR功能,由阿里千問大模型團隊Qwen2-VL提供支持;數(shù)學推理能力,由Qwen2-Math支持?!?/p>
阿里高級算法專家林俊旸也在推特評論區(qū)進一步解釋:
目前,Qwen2-VL和Qwen2-Math還是各自負責一部分。
但不久的將來,我們會把多模態(tài)能力和數(shù)學推理能力結(jié)合到一個模型上喲。
不少網(wǎng)友對這種交互模式挺買賬:
歪瑞古德!用圖像來上傳,然后等大模型解決問題,喜歡!
那么,最強數(shù)學大模型Qwen2-Math,上手效果怎么樣?
效果怎么樣?這就玩一把
是時候讓Qwen2-Math過五關(guān)斬六將了!
先來幾道比較簡單的計算題開開胃。
提前說明,兩位體驗過程中,Qwen2-Math不是一邊算一邊顯示的,而是計算完畢后直接顯示過程和結(jié)果。
(而且應(yīng)該是越來越多人開始玩了,結(jié)果生成時間逐漸拉長)
第一題:“計算AxA+A=240”中,A的值。
Qwen2-Math給出了正確答案,A=14或A=-16。
第二題:給定a的值,計算等式的結(jié)果。
Qwen2-Math計算出,答案是0,也是對的。
第三題:(A+3)(A+4)(A+5)=120,求A的值。
Bingo!答案是1。
OK,熱身結(jié)束,給Qwen2-Math點難度看看。
那就來一道已經(jīng)是(數(shù)學)大模型測評的標配:
9.9和9.11哪個更大?
Qwen2-Math自信回答:
9.9比9.11更大!
那就再上點難度!
扔給它一道截至目前,只有GPT-4o答對過的題:
一個外星人來到地球后等可能選擇以下四件事中的一件完成:
1、自我毀滅;
2、分裂成兩個外星人;
3、分裂成三個外星人;
4、什么都不做。
此后每天,每個外星人均會做一次選擇,且彼此之間相互獨立。
求地球上最終沒有外星人的概率。
這道題,Qwen2-Math花費了約30秒左右的時間,給出答案:1。
很遺憾,答案是錯誤的,正確答案是√2減1。
我們在各大平臺的評論區(qū)逛了一下,除了計算錯誤以外,還有另一種可能導致答案不正確——
那就是Qwen2-VL在識別題目的時候,本身就出錯了。
錯在第一步,這樣的話大模型得出的肯定就不是正確答案。
同時,林俊旸還在網(wǎng)友的評論區(qū)表示:
咱們Qwen2-Math目前還不能做幾何題。
用中文提問也可以
這次的主角Qwen2-Math,基于通義千問開源大語言模型Qwen2研發(fā),由阿里千問大模型團隊在十天前發(fā)布。
它專用于數(shù)學解題,并且能夠解決競賽級試題。
Qwen2-Math總共有三個參數(shù)量的版本:
72B,7B和1.5B。
在Qwen2-Math-72B的基礎(chǔ)之上,千問團隊還微調(diào)出了Instruct版本。
這也是Qwen2-Math的旗艦?zāi)P停且粋€數(shù)學專用的獎勵模型,將獎勵信號與正誤判斷信號結(jié)合作為學習標簽,再通過拒絕采樣構(gòu)建監(jiān)督微調(diào)(SFT)數(shù)據(jù),最后在SFT模型基礎(chǔ)上使用GRPO方法優(yōu)化。
Qwen2-Math-72B-Instruct以84%的準確率處理了代數(shù)、幾何、計數(shù)與概率、數(shù)論等多種數(shù)學問題。
并且一經(jīng)發(fā)布就在數(shù)學大模型中“登基”,在MATH數(shù)據(jù)集上比GPT-4o多得了7分,按比例算高出了9.6%。
直接超越開源Llama 3.1-405B以及閉源的GPT-4o、Claude 3.5等。
截至發(fā)稿,抱抱臉上Qwen2-Math-72B-Instruct的下載量超過了13.2k。
而且有個最新發(fā)現(xiàn):
雖然團隊聲稱Qwen2-Math目前還是主要針對英文場景,但如果拿中文題目去問它,Qwen2-Math還是能進行解答的。
只不過是用英文回答你罷了。
據(jù)了解,Qwen2-Math的中英雙語版本將會在之后推出。