全球首個(gè)工業(yè)界多模態(tài)推理模型開(kāi)源!38B硬剛DeepSeek-R1,訓(xùn)練秘籍全公開(kāi)
剛剛,昆侖萬(wàn)維正式開(kāi)源了全球首個(gè)工業(yè)界多模態(tài)推理模型Skywork R1V(以下簡(jiǎn)稱「R1V」)!
R1V高效地將DeepSeek-R1這種強(qiáng)大的文本推理能力無(wú)縫scaling到了視覺(jué)模態(tài),實(shí)現(xiàn)了多模態(tài)領(lǐng)域的領(lǐng)先表現(xiàn),并以開(kāi)源方式推動(dòng)了技術(shù)進(jìn)步。
由此,多模態(tài)推理的新時(shí)代即將開(kāi)啟。
R1V的實(shí)力,究竟有多強(qiáng)?
在視覺(jué)問(wèn)答任務(wù)中,R1V直接對(duì)標(biāo)Claude 3.5 Sonnet、GPT-4o等閉源模型,同時(shí)還保留了頂級(jí)文本推理能力。
在MMMU基準(zhǔn)測(cè)試中,R1V以69分創(chuàng)下同等規(guī)模新高,在MathVista上拿下67.5分,達(dá)到領(lǐng)先的開(kāi)源模型水平。
無(wú)論是復(fù)雜的數(shù)學(xué)推理,還是圖像中的邏輯分析等,R1V都能輕松駕馭,堪稱多模態(tài)領(lǐng)域的「全能戰(zhàn)士」。
總結(jié)來(lái)說(shuō),R1V有以下三大亮點(diǎn)。
1. 全球第一個(gè)工業(yè)界開(kāi)源多模態(tài)+推理模型
2. 性能接近甚至超越了規(guī)模大兩倍的開(kāi)源模型
3. 通過(guò)開(kāi)源讓技術(shù)可以惠及到更多人
這背后的締造者,就是中國(guó)的AI科技公司——昆侖萬(wàn)維。
R1V的問(wèn)世,更以開(kāi)放的姿態(tài)為全球AI開(kāi)源社區(qū)注入了全新活力。
即日起,模型權(quán)重、推理代碼、技術(shù)報(bào)告全盤開(kāi)源。
GitHub:https://github.com/SkyworkAI/Skywork-R1V
Hugging Face:https://huggingface.co/Skywork/Skywork-R1V-38B
技術(shù)報(bào)告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf
這標(biāo)志著,昆侖萬(wàn)維成為全球首家開(kāi)源多模態(tài)思考模型的公司,朝著AGI落地邁出重要的一步。
而選擇開(kāi)源R1V視覺(jué)思考模型,也正是昆侖萬(wàn)維為了更堅(jiān)定地貫徹AGI的夢(mèng)想,推動(dòng)開(kāi)源社區(qū)的技術(shù)進(jìn)步。
R1V:全球首款開(kāi)源多模態(tài)推理模型
此前,OpenAI o1和DeepSeek-R1在全球帶來(lái)了長(zhǎng)思考模型的熱潮,讓大模型領(lǐng)域進(jìn)入了全新的技術(shù)范式。
而不同于長(zhǎng)思考模型專注于多步推理的特點(diǎn),視覺(jué)思考模型則專注于從圖像或視頻中提取信息、進(jìn)行邏輯推理。
如果要給它下個(gè)定義的話,什么是視覺(jué)思考模型?
簡(jiǎn)單來(lái)說(shuō),視覺(jué)思考模型是一種,能在文本、視覺(jué)復(fù)雜任務(wù)中,展現(xiàn)驚人推理能力的AI。
它不僅能「讀懂」文字,還能「看懂」圖像,并基于此進(jìn)行深度分析和邏輯推理。
首先來(lái)一道數(shù)學(xué)題:「用圓心角為120°,半徑為6cm的扇形紙片卷成一個(gè)圓錐形無(wú)底紙帽,則這個(gè)紙帽的高是?」
R1V經(jīng)過(guò)短暫糾錯(cuò)后,給出了清晰完整的解題過(guò)程,并得出正確答案,表現(xiàn)出了較強(qiáng)的邏輯推理能力。
圖片
接下來(lái)再來(lái)一道更難一些的:「函數(shù)f(x)=∣2x?3∣+1在x=2和x=5處的導(dǎo)數(shù)關(guān)系是?」
可以看到,R1V先找到了絕對(duì)值部分∣2x?3∣的零點(diǎn):令2x-3=0得x=1.5。
然后得出,當(dāng)x≥1.5時(shí),f(x)=2x-3+1=2x-2,導(dǎo)數(shù)f?'(x)=2;當(dāng)x<1.5時(shí),f(x)=-(2x-3)+1=-2x+4,導(dǎo)數(shù)f?'(x)=-2。
由于題目中的x=2和x=5均大于1.5,所以都屬于f(x)=2x-2部分。因此,f?'(2)=2,f?'(5)=2,即兩點(diǎn)處的導(dǎo)數(shù)相等。
最后,R1V給出了答案:(B)等于。
圖片
以上案例中不難看出,R1V在視覺(jué)+推理上表現(xiàn)驚艷,所以,它是如何逆襲成功的?
煉丹之道,細(xì)節(jié)全公開(kāi)
最新公開(kāi)的技術(shù)報(bào)告中,揭秘了三大殺招。
跨模態(tài)遷移學(xué)習(xí)
昆侖萬(wàn)維的研究者,首次發(fā)現(xiàn)了跨模態(tài)的遷移學(xué)習(xí)。
R1V首次實(shí)現(xiàn)了將大模型的文本推理能力高效遷移至視覺(jué)模態(tài),通過(guò)Skywork-VL視覺(jué)投影器的有效訓(xùn)練,顯著保留了原有的推理能力。
整個(gè)過(guò)程無(wú)需從頭重新訓(xùn)練基座語(yǔ)言模型和視覺(jué)編碼器,且有效保留了原有的文本推理能力。
具體來(lái)說(shuō),研究者提出了一種高效的多模態(tài)遷移方法,通過(guò)MLP結(jié)構(gòu),有效地將具有推理能力的語(yǔ)言模型與視覺(jué)骨干對(duì)齊。
這樣,就大幅減少了對(duì)大量多模態(tài)推理數(shù)據(jù)的需求。
這種方法背后的關(guān)鍵洞察,就在于將視覺(jué)-語(yǔ)言表示的對(duì)齊與推理能力的保留解耦。
直接將具有推理能力的語(yǔ)言模型(fl)連接到視覺(jué)骨干(fv),會(huì)需要大量的 R1風(fēng)格格式的多模態(tài)推理數(shù)據(jù),以同時(shí)實(shí)現(xiàn)這兩個(gè)目標(biāo)。
然而這種做法成本太高,不切實(shí)際。因此,研究者采用了一種相反的分階段策略。
首先,他們訓(xùn)練一個(gè)MLP適配器,將fv與具有相同架構(gòu)但無(wú)推理能力的替代語(yǔ)言模型()對(duì)齊;隨后,他們利用
和fl之間的潛在相似性,將預(yù)訓(xùn)練的MLP轉(zhuǎn)移,以使fv與原始的推理能力模型fl對(duì)齊。
這樣,所需數(shù)據(jù)量就大幅減少。
所導(dǎo)致的結(jié)果就是,正如前文提到的,R1V在權(quán)威的數(shù)學(xué)推理基準(zhǔn)測(cè)試AIME和MATH500中,分別取得72.0和94.0的高分,展現(xiàn)了強(qiáng)大的推理競(jìng)爭(zhēng)力。
在同等規(guī)模大小模型中的推理能力遙遙領(lǐng)先,并且與閉源模型以及大尺寸模型相比,仍有很強(qiáng)的競(jìng)爭(zhēng)力。
這樣的優(yōu)異的文本推理能力,直接「搬家」視覺(jué)領(lǐng)域,效率直接拉滿。
混合式訓(xùn)練策略
R1V還采用了迭代監(jiān)督微調(diào)(Iterative SFT)和 GRPO強(qiáng)化學(xué)習(xí)相結(jié)合的混合訓(xùn)練方法,能夠動(dòng)態(tài)調(diào)整思維鏈長(zhǎng)度。
這個(gè)過(guò)程,一共分為三個(gè)階段。
階段1:使用完整數(shù)據(jù)集,進(jìn)行初始訓(xùn)練;
階段2:使用定制數(shù)據(jù),進(jìn)行迭代訓(xùn)練;
階段3:強(qiáng)化學(xué)習(xí)。
混合式訓(xùn)練策略
具體而言,在SFT階段,研究人員迭代訓(xùn)練一系列模型M?, ..., M?,其中每個(gè)后續(xù)模型M???,都在獎(jiǎng)勵(lì)模型選擇的高質(zhì)量數(shù)據(jù)和前一迭代中處理不正確的樣本上進(jìn)行訓(xùn)練。
在RL階段,遵循了DeepSeek R1提出的方法,利用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)GRPO,進(jìn)一步提升模型的泛化能力。
強(qiáng)化學(xué)習(xí)訓(xùn)練完成后,研究人員選擇一個(gè)在性能和推理合理性之間達(dá)到最佳平衡的模型作為最終模型。
經(jīng)此訓(xùn)練后的模型,不僅提升了推理效率,還在開(kāi)源模型中,率先實(shí)現(xiàn)SOTA。
經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,R1V在MMMU基準(zhǔn)上達(dá)到69分的高分,同時(shí)在MathVista上取得67.5分,接近更大規(guī)模閉源模型的表現(xiàn)。
自適應(yīng)長(zhǎng)度思維鏈蒸餾
此外,研究團(tuán)隊(duì)還提出了一個(gè)自適應(yīng)長(zhǎng)度的思維鏈蒸餾(AL-CoTD)框架。
像o1這樣的推理模型之所以表現(xiàn)出色,很大程度上歸功于,它們?cè)谕评頃r(shí)能模擬人類長(zhǎng)時(shí)間的思考過(guò)程。
然而,一個(gè)關(guān)鍵問(wèn)題來(lái)了——推理模型有時(shí)會(huì)「過(guò)度思考」。
或許你也感同身受:輸入一個(gè)問(wèn)題后,AI有時(shí)會(huì)反復(fù)思考很多遍。
最近,來(lái)自UC伯克利CMU、UMass Amherst、上交大等國(guó)內(nèi)外機(jī)構(gòu)也通過(guò)研究實(shí)證,推理模型「過(guò)度思考」會(huì)導(dǎo)致計(jì)算資源浪費(fèi),甚至損害模型本身的性能。
某些情況下, AI生成的序列可能長(zhǎng)達(dá)數(shù)萬(wàn)個(gè)token,收益卻微乎其微。
昆侖萬(wàn)維提出的AL-CoTD框架,可根據(jù)需求動(dòng)態(tài)調(diào)整思維鏈長(zhǎng)度,有效緩解推理模型「過(guò)度思考」的問(wèn)題,并顯著提升了推理效率。
它一共包含三大核心組件:質(zhì)量與難度評(píng)估模塊(QDAM)、視覺(jué)-文本集成分析器(VTIA)、動(dòng)態(tài)推理長(zhǎng)度控制器(DRLC)。
自適應(yīng)長(zhǎng)度思維鏈蒸餾
· QDAM
質(zhì)量與難度評(píng)估模塊利用GPT-4o系統(tǒng)性地評(píng)估圖文查詢對(duì),從視覺(jué)得分(Sv)和文本得分(St)兩個(gè)主要維度進(jìn)行分析。
視覺(jué)得分(Sv)會(huì)量化圖像的視覺(jué)特征,具體包括圖像清晰度和圖像必要性。文本得分(St)則會(huì)分析語(yǔ)言特性,主要涵蓋問(wèn)題質(zhì)量、難度級(jí)別和推理需求。
這個(gè)綜合評(píng)估框架能夠捕捉多模態(tài)查詢中的感知復(fù)雜性和認(rèn)知復(fù)雜性,從而能更準(zhǔn)確地評(píng)估多模態(tài)任務(wù)的難度。
· VTIA
視覺(jué)-文本融合分析器(VTIA) 通過(guò)句法分析和語(yǔ)義分析確定跨模態(tài)融合的必要深度,并計(jì)算融合評(píng)分(SI)。
VTIA依靠GPT-4o識(shí)別圖文查詢中的模式,并根據(jù)查詢的復(fù)雜程度動(dòng)態(tài)調(diào)整融合需求。
高融合模式常見(jiàn)于科學(xué)解釋類問(wèn)題,涉及多個(gè)視覺(jué)對(duì)象的空間關(guān)系理解,需要高階視覺(jué)推理能力。低融合模式主要出現(xiàn)在物體識(shí)別任務(wù),側(cè)重于直接物體識(shí)別,不需要復(fù)雜推理。
這樣,VTIA就實(shí)現(xiàn)了針對(duì)查詢復(fù)雜度的自適應(yīng)跨模態(tài)融合,確保模型合理分配計(jì)算資源。
· DRLC
動(dòng)態(tài)推理長(zhǎng)度控制器(DRLC) 通過(guò)歸一化的視覺(jué)得分()、文本得分(
)和融合評(píng)分(
)來(lái)動(dòng)態(tài)調(diào)節(jié)推理鏈的長(zhǎng)度。
這些歸一化得分通過(guò)最小-最大縮放歸一化到區(qū)間 [0,1]。
推理鏈長(zhǎng)度的調(diào)節(jié)遵循以下兩大原則:
- 降低重復(fù)懲罰(促進(jìn)深入推理):當(dāng)圖文質(zhì)量高、認(rèn)知難度大、視覺(jué)場(chǎng)景復(fù)雜時(shí),降低重復(fù)懲罰,以允許更長(zhǎng)的推理鏈。
- 高重復(fù)懲罰(減少冗余推理):當(dāng)查詢涉及低難度任務(wù)、簡(jiǎn)單視覺(jué)識(shí)別,且文本-圖像的融合需求較低時(shí),提高重復(fù)懲罰,從而縮短推理鏈,避免不必要的復(fù)雜推理。
· 多階段自蒸餾管線
在DRLC模塊的基礎(chǔ)上,研究者進(jìn)一步引入漸進(jìn)式自蒸餾策略,以提高推理數(shù)據(jù)的質(zhì)量。
總結(jié)來(lái)說(shuō),這篇論文的發(fā)表,也意味著相較于其他不開(kāi)源或不免費(fèi)的模型,昆侖萬(wàn)維無(wú)償把上述技術(shù)思路給開(kāi)源了。
這也就充分體現(xiàn)出R1V和DeepSeek的思路一樣,希望通過(guò)開(kāi)源持續(xù)打造技術(shù)影響力。
進(jìn)化全模態(tài)
值得一提的是,當(dāng)前想要打造一個(gè)全模態(tài)的模型,不僅需要在特定領(lǐng)域獨(dú)立訓(xùn)練多個(gè)專業(yè)模型,而且還會(huì)面臨跨模態(tài)協(xié)同的算力挑戰(zhàn)。
為實(shí)現(xiàn)多模態(tài)到全模態(tài)的跨越,團(tuán)隊(duì)設(shè)計(jì)了一種全新的全模態(tài)擴(kuò)展技術(shù),使得R1V在單個(gè)模型中具備同時(shí)處理圖像、視頻、語(yǔ)音等多種模態(tài)信息的能力。
結(jié)果顯示,「進(jìn)化」后的R1V不僅能夠在單個(gè)模型中同時(shí)實(shí)現(xiàn)圖像、視頻、語(yǔ)音的全模態(tài)思考能力,而且還能在語(yǔ)音和視覺(jué)理解評(píng)測(cè)中均斬獲多項(xiàng)SOTA成績(jī)。
敢為人先,中國(guó)AI企業(yè)硬核擔(dān)當(dāng)
作為中國(guó)AI領(lǐng)軍企業(yè),昆侖萬(wàn)維始終秉持著——實(shí)現(xiàn)AGI,讓每個(gè)人更好塑造和表達(dá)自我,持續(xù)深耕AI前沿技術(shù)。
過(guò)去3年,這家公司在音樂(lè)大模型、文本大模型、視頻模型等領(lǐng)域,取得了一系列突破,并構(gòu)建起了完整的AI產(chǎn)品矩陣:
- 天工AI搜索
- 全球首個(gè)AI音樂(lè)創(chuàng)作平臺(tái)Mureka
- AI短劇平臺(tái)SkyReels
更值得一提的是,上個(gè)月,團(tuán)隊(duì)還發(fā)布了世界模型系列Matrix-Zero。
當(dāng)世界模型能夠模擬物理世界時(shí),虛擬實(shí)驗(yàn)、仿真和影視創(chuàng)作都將迎來(lái)爆發(fā)式增長(zhǎng)。
從AI前沿基礎(chǔ)研究,到基座模型,再到AI矩陣產(chǎn)品/應(yīng)用的完整布局,昆侖萬(wàn)維正一步步將技術(shù)愿景變?yōu)楝F(xiàn)實(shí)。
下一步,他們還將陸續(xù)開(kāi)源具有空間推理能力和世界理解能力的視覺(jué)思考模型,以及全模態(tài)思考模型。
而R1V的誕生,是中國(guó)AI向世界發(fā)出的洪亮聲音。