阿里震撼發(fā)布,32B的Qwen2.5,開(kāi)發(fā)者福音!實(shí)測(cè):AI可以幫抓小偷了! 原創(chuàng)
編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
阿里今天發(fā)了Qwen2.5-VL的32B版本,達(dá)到同等規(guī)模的SOTA模型,堪稱開(kāi)發(fā)者福音!
千問(wèn)接連兩三次的模型發(fā)布時(shí)間都不太湊巧。今日與DeepSeek V3的更新撞車,而上次發(fā)的QwQ-32B以輕量推理模型擊敗了DeepSeek R1,但風(fēng)頭完全被Manus搶走了!
連網(wǎng)友都直呼阿里是AI屆汪峰。
圖片
不過(guò)話說(shuō)回來(lái),Qwen2.5-VL-32B這個(gè)模型還是很值得關(guān)注,作為阿里放出的第二大視覺(jué)模型,性能甚至超過(guò)了更大規(guī)模的 Qwen2-VL-72B-Instruct!主要有以下三方面優(yōu)勢(shì):
- 回復(fù)更符合人類主觀偏好:調(diào)整了輸出風(fēng)格,使回答更加詳細(xì)、格式更規(guī)范,并更符合人類偏好。
- 數(shù)學(xué)推理能力:復(fù)雜數(shù)學(xué)問(wèn)題求解的準(zhǔn)確性顯著提升。
- 圖像細(xì)粒度理解與推理:在圖像解析、內(nèi)容識(shí)別以及視覺(jué)邏輯推導(dǎo)等任務(wù)中表現(xiàn)出更強(qiáng)的準(zhǔn)確性和細(xì)粒度分析能力。
從性能上看,Qwen2.5-VL-32B不僅在專長(zhǎng)的視覺(jué)能力上一騎絕塵:
圖片
連純文本能力,都達(dá)到了同規(guī)模模型的SOTA級(jí)別:
圖片
無(wú)論是從開(kāi)發(fā)者的本地部署需求出發(fā),還是32B所做的架構(gòu)更新,都有可圈可點(diǎn)之處。
阿里大佬Binyuan Hui表示這個(gè)模型尺寸就是為開(kāi)發(fā)人員準(zhǔn)備的。
圖片
在X上找資料的時(shí)候,我們甚至發(fā)現(xiàn)網(wǎng)友曾向千問(wèn)團(tuán)隊(duì)大佬隔空喊話。千問(wèn)的反饋速度可以啊,網(wǎng)友這波許愿成功!
圖片
海外網(wǎng)友也是對(duì)該模型贊美有加,經(jīng)過(guò)實(shí)測(cè),該模型在識(shí)別物體、分析視覺(jué)效果、掃描等方面令人印象深刻!甚至能理解一小時(shí)的視頻!
圖片
現(xiàn)在,Qwen2.5-VL-32B已經(jīng)開(kāi)源,大家可以在Qwen網(wǎng)頁(yè)版快速試用:
網(wǎng)頁(yè)版:https://chat.qwen.ai/
HF:https://huggingface.co/spaces/Qwen/Qwen2.5-VL-32B-Instruct
圖片
加上DeepSeek的更新,今天可以說(shuō)是中國(guó)開(kāi)源模型的Big Day。
一位網(wǎng)友在Hacker News上留言說(shuō):
很快我就不會(huì)再使用任何美國(guó)模型了,而是 100% 采用中國(guó)的開(kāi)源模型。(美)基礎(chǔ)模型公司完了,只有賣鏟子的(如 Nvidia、基礎(chǔ)設(shè)施公司)和產(chǎn)品公司會(huì)贏。
圖片
1.案例實(shí)測(cè):Qwen2.5-VL-32B可以做什么
雖然Qwen2.5-VL-32B并沒(méi)有類似R1的長(zhǎng)推理能力,但是其視覺(jué)推理仍然表現(xiàn)出色!
先來(lái)看一個(gè)阿里blog里的demo案例:
用戶將高速的限速牌拍給了AI,并問(wèn)到:我駕駛一輛大卡車行駛在這條路上,現(xiàn)在是 12 點(diǎn)鐘。我能在 13 點(diǎn)之前到達(dá) 110 公里多遠(yuǎn)的地方嗎?
這個(gè)案例很有生活感了。就是咱們平時(shí)需要用的AI能力。
圖片
然后AI就開(kāi)始提取圖片的信息,開(kāi)始幫人吭哧吭哧地計(jì)算了。
最后表示:目標(biāo)是 13:00 之前到達(dá)。然而,根據(jù)計(jì)算,你將在 13:06 抵達(dá),已經(jīng)超過(guò)了 13:00。
圖片
知乎網(wǎng)友@北方的郎,以超市的智能預(yù)警系統(tǒng)為例,對(duì)Qwen2.5-VL-32B進(jìn)行了一把實(shí)測(cè)。感覺(jué)攝像頭配個(gè)模型就可以出去打工了。先是測(cè)試了一個(gè)形跡可疑的男人:
圖片
模型給出了通知安保的建議。然后又用了一張正常的超市圖進(jìn)行測(cè)試,還是做出了正確識(shí)別!
圖片
再來(lái)看一下Qwen2.5-VL-32B理解視頻的能力,據(jù)網(wǎng)友實(shí)測(cè),本地部署后能做長(zhǎng)達(dá)一小時(shí)的視頻理解。不過(guò)在網(wǎng)頁(yè)端,則支持10分鐘以內(nèi)的短視頻。
小編使用之前看華為Pura的發(fā)布會(huì)錄屏片段,詢問(wèn)下智能助手小藝是如何在用戶的語(yǔ)音指令下,為觀看的B站視頻一鍵三連的:
圖片
Qwen2.5-VL-32B的響應(yīng)非常絲滑,而且主要的內(nèi)容都get到了。不過(guò)很可惜的是,我希望AI識(shí)別出來(lái)這是目前AI大熱的智能體方向,并基于此出發(fā)談?wù)劶夹g(shù)實(shí)現(xiàn),這一點(diǎn)AI稍弱一些。
圖片
2.既要又要:更聰明、更輕量的模型是怎樣煉成的?
那么阿里是怎么做到讓32B模型如此優(yōu)秀的呢?
HF中給出了一些Qwen2.5-VL的技術(shù)細(xì)節(jié),可以猜測(cè)這仍然是32B模型進(jìn)化的方面。
讓 AI 更懂視頻:動(dòng)態(tài)分辨率與幀率訓(xùn)練
為了讓 AI 更好地理解視頻,Qwen2.5-VL 不僅能調(diào)整分辨率,還在時(shí)間維度上引入了動(dòng)態(tài)幀率(FPS)采樣。這樣一來(lái),模型可以在不同的采樣速率下分析視頻,適應(yīng)各種播放速度和場(chǎng)景。與此同時(shí),mRoPE 也在時(shí)間維度上進(jìn)行了升級(jí)——通過(guò)IDs(標(biāo)識(shí)符)和絕對(duì)時(shí)間對(duì)齊,模型學(xué)會(huì)了理解時(shí)間序列和速度變化,甚至能精準(zhǔn)定位關(guān)鍵時(shí)刻,讓視頻分析更智能。
高效精簡(jiǎn)的視覺(jué)編碼器,讓推理更快
在視覺(jué)處理方面,這一版本的 Qwen2.5-VL 也進(jìn)行了優(yōu)化。它在 ViT(視覺(jué)變換器) 中巧妙地加入了窗口注意力機(jī)制,顯著提升了訓(xùn)練和推理的效率。
3.One More Thing:千問(wèn)即將支持MCP
今天打開(kāi)Qwen的網(wǎng)頁(yè)版,還發(fā)現(xiàn)千問(wèn)已經(jīng)計(jì)劃支持MCP!
給不太熟悉MCP的朋友科普一句,這個(gè)開(kāi)源協(xié)議由Anthropic去年年底提出,旨在統(tǒng)一大型語(yǔ)言模型(LLM)與外部數(shù)據(jù)源和工具之間的通信方式。簡(jiǎn)單來(lái)說(shuō),MCP就像AI界的USB-C接口,讓AI系統(tǒng)能更方便地連接各種數(shù)據(jù)源和功能模塊,實(shí)現(xiàn)即插即用。
圖片
對(duì)于千問(wèn)來(lái)說(shuō),接入MCP意味著它們可以更高效地獲取和處理外部信息,提升理解和決策能力??磥?lái),阿里在智能體方向有了清晰的藍(lán)圖!
希望阿里下次發(fā)重磅更新的時(shí)候,能有運(yùn)氣選到一個(gè)好時(shí)機(jī),有實(shí)力的同時(shí),也能獲得值得的口碑和聲量。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)
