自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

哪里不會掃哪里!全球最強數(shù)學大模型發(fā)布人人可玩Demo,阿里多模態(tài)模型加持,中文適用

人工智能 新聞
Qwen2-Math-72B-Instruct以84%的準確率處理了代數(shù)、幾何、計數(shù)與概率、數(shù)論等多種數(shù)學問題。

現(xiàn)在,最強數(shù)學大模型,人人都可上手玩了!

一覺醒來,阿里千問大模型團隊發(fā)布了Qwen2-Math的Demo,抱抱臉在線可玩。

驚喜的是,如果嫌輸入數(shù)學公式比較麻煩,可以把想問的題截圖or掃描,上傳即可解題。

整得挺方便。

圖片

試玩界面上明確寫著,“這個試玩界面的OCR功能,由阿里千問大模型團隊Qwen2-VL提供支持;數(shù)學推理能力,由Qwen2-Math支持?!?/p>

阿里高級算法專家林俊旸也在推特評論區(qū)進一步解釋:

目前,Qwen2-VL和Qwen2-Math還是各自負責一部分。
但不久的將來,我們會把多模態(tài)能力和數(shù)學推理能力結(jié)合到一個模型上喲。

圖片

不少網(wǎng)友對這種交互模式挺買賬:

歪瑞古德!用圖像來上傳,然后等大模型解決問題,喜歡!

圖片

那么,最強數(shù)學大模型Qwen2-Math,上手效果怎么樣?

效果怎么樣?這就玩一把

是時候讓Qwen2-Math過五關(guān)斬六將了!

先來幾道比較簡單的計算題開開胃。

提前說明,兩位體驗過程中,Qwen2-Math不是一邊算一邊顯示的,而是計算完畢后直接顯示過程和結(jié)果。

(而且應(yīng)該是越來越多人開始玩了,結(jié)果生成時間逐漸拉長)

第一題:“計算AxA+A=240”中,A的值。

Qwen2-Math給出了正確答案,A=14或A=-16。

圖片


第二題:給定a的值,計算等式的結(jié)果。

Qwen2-Math計算出,答案是0,也是對的。

圖片


第三題:(A+3)(A+4)(A+5)=120,求A的值。

Bingo!答案是1。

圖片


OK,熱身結(jié)束,給Qwen2-Math點難度看看。

那就來一道已經(jīng)是(數(shù)學)大模型測評的標配:

9.9和9.11哪個更大?

圖片


Qwen2-Math自信回答:

9.9比9.11更大!

那就再上點難度!

扔給它一道截至目前,只有GPT-4o答對過的題:

一個外星人來到地球后等可能選擇以下四件事中的一件完成:
1、自我毀滅;
2、分裂成兩個外星人;
3、分裂成三個外星人;
4、什么都不做。
此后每天,每個外星人均會做一次選擇,且彼此之間相互獨立。
求地球上最終沒有外星人的概率。

這道題,Qwen2-Math花費了約30秒左右的時間,給出答案:1。

很遺憾,答案是錯誤的,正確答案是√2減1。

圖片

我們在各大平臺的評論區(qū)逛了一下,除了計算錯誤以外,還有另一種可能導致答案不正確——

那就是Qwen2-VL在識別題目的時候,本身就出錯了。

錯在第一步,這樣的話大模型得出的肯定就不是正確答案。

圖片

同時,林俊旸還在網(wǎng)友的評論區(qū)表示:

咱們Qwen2-Math目前還不能做幾何題。

圖片

用中文提問也可以

這次的主角Qwen2-Math,基于通義千問開源大語言模型Qwen2研發(fā),由阿里千問大模型團隊在十天前發(fā)布。

它專用于數(shù)學解題,并且能夠解決競賽級試題。

Qwen2-Math總共有三個參數(shù)量的版本:

72B,7B和1.5B。

在Qwen2-Math-72B的基礎(chǔ)之上,千問團隊還微調(diào)出了Instruct版本。

這也是Qwen2-Math的旗艦?zāi)P停且粋€數(shù)學專用的獎勵模型,將獎勵信號與正誤判斷信號結(jié)合作為學習標簽,再通過拒絕采樣構(gòu)建監(jiān)督微調(diào)(SFT)數(shù)據(jù),最后在SFT模型基礎(chǔ)上使用GRPO方法優(yōu)化。

Qwen2-Math-72B-Instruct以84%的準確率處理了代數(shù)、幾何、計數(shù)與概率、數(shù)論等多種數(shù)學問題。

并且一經(jīng)發(fā)布就在數(shù)學大模型中“登基”,在MATH數(shù)據(jù)集上比GPT-4o多得了7分,按比例算高出了9.6%。

直接超越開源Llama 3.1-405B以及閉源的GPT-4o、Claude 3.5等。

圖片

截至發(fā)稿,抱抱臉上Qwen2-Math-72B-Instruct的下載量超過了13.2k。

而且有個最新發(fā)現(xiàn):

雖然團隊聲稱Qwen2-Math目前還是主要針對英文場景,但如果拿中文題目去問它,Qwen2-Math還是能進行解答的。

只不過是用英文回答你罷了。

據(jù)了解,Qwen2-Math的中英雙語版本將會在之后推出。

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-11-03 07:47:12

機器資源大模型:

2025-01-08 08:21:16

2023-05-15 12:14:02

ChatGPT語音模型

2024-05-07 08:04:09

代碼格式化工具

2016-11-24 15:32:35

云計算

2024-02-06 20:39:21

2023-09-26 14:21:33

模型開源Qwen-14B

2024-04-10 08:15:17

模型語言模型GPT

2023-08-04 13:22:46

AI開源

2023-08-15 14:35:48

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-09-25 14:53:00

2024-11-13 09:39:13

2024-12-18 18:57:58

2024-08-30 14:35:00

2023-08-22 20:48:06

模型釘釘阿里云

2023-12-28 09:49:19

AI工具模型

2023-09-05 14:43:15

點贊
收藏

51CTO技術(shù)棧公眾號