多模態(tài)版DeepSeek-R1:評(píng)測(cè)表現(xiàn)超GPT-4o,模態(tài)穿透反哺文本推理能力!北大港科大出品,已開(kāi)源
如果把DeepSeek-R1震撼硅谷的深度推理表現(xiàn),運(yùn)用到多模態(tài)場(chǎng)景,那會(huì)怎樣?
此前DeepSeek自家的Janus-Pro-7B沒(méi)有結(jié)合推理能力,但現(xiàn)在,國(guó)內(nèi)有研究團(tuán)隊(duì)先做到了——
基于自研全模態(tài)框架Align-Anything,北大聯(lián)合港科大團(tuán)隊(duì)推出多模態(tài)版DeepSeek-R1:
Align-DS-V,它在部分視覺(jué)理解表現(xiàn)評(píng)測(cè)集上超越GPT-4o。
當(dāng)圖文結(jié)合地詢問(wèn)它減肥時(shí)更適合喝哪一款飲品時(shí),Align-DS-V精確地指出圖中飲品的款數(shù)、飲品名稱,以及減脂時(shí)最適合飲用的是“低糖原味豆奶”。
不僅如此,它還額外指出,圖中的原味豆奶同樣適合減脂期飲用。
圖片
更重要的是,在讓DeepSeek-R1“長(zhǎng)眼睛”的過(guò)程中,研究人員還發(fā)現(xiàn)了模態(tài)穿透對(duì)于模型文本模態(tài)推理能力的提升效果。
具體來(lái)說(shuō),團(tuán)隊(duì)在DeepSeek-R1的全模態(tài)化嘗試中發(fā)現(xiàn),多模態(tài)訓(xùn)練之后,模型不僅在文本模態(tài)任務(wù)上的表現(xiàn)有所提升,在科學(xué)任務(wù)、復(fù)雜推理、數(shù)學(xué)代碼等方面的表現(xiàn)亦均有提升。
尤為顯著的是,在ARC-Challenge(5-shot)上,成績(jī)從單模態(tài)的21.4提升到了多模態(tài)的40.5。
圖片
基于此,團(tuán)隊(duì)認(rèn)為當(dāng)下多模態(tài)大模型已具備強(qiáng)大的跨模態(tài)穿透與融合的感知能力,能夠通過(guò)結(jié)合世界知識(shí)與上下文學(xué)習(xí)能力,實(shí)現(xiàn)多種模態(tài)(如圖像、文本、音頻、視頻等)的高效推理與協(xié)同輸出。
通過(guò)深度融合世界知識(shí),模型在文本模態(tài)下的推理邊界得以拓展。
全模態(tài)對(duì)齊Align-Anything,涌現(xiàn)模態(tài)穿透能力
人類在日常生活中接收到的信息往往是全模態(tài)的,如何將“強(qiáng)推理慢思考”從單文本模態(tài)進(jìn)一步推廣到更多模態(tài)甚至是全模態(tài)場(chǎng)景,不可否認(rèn)是大勢(shì)所趨。
在此基礎(chǔ)上,如何將全模態(tài)大模型與人類的意圖相對(duì)齊,也是一個(gè)極具前瞻性且至關(guān)重要的挑戰(zhàn)。
在單一文本模態(tài)場(chǎng)景下,許多復(fù)雜推理任務(wù)可以通過(guò)基于規(guī)則的獎(jiǎng)勵(lì)提供監(jiān)督信號(hào),作為人類意圖和偏好的載體。
而當(dāng)從文本模態(tài)擴(kuò)展到多模態(tài)甚至全模態(tài)場(chǎng)景下時(shí),許多問(wèn)題會(huì)隨之浮現(xiàn):
- 隨著模態(tài)數(shù)量增加,傳統(tǒng)二元偏好或規(guī)則獎(jiǎng)勵(lì)是否能夠捕捉人類意圖的多元偏好或?qū)哟位茫?/li>
- 當(dāng)多模態(tài)擴(kuò)展到全模態(tài)空間,模態(tài)交互更加復(fù)雜,RL方法需要做哪些改進(jìn)?
- 不同模態(tài)下,模態(tài)特有與模態(tài)共有的信息如何統(tǒng)一在獎(jiǎng)勵(lì)信號(hào)建模中?
- ……
輸入輸出空間的分布更加廣泛,幻覺(jué)現(xiàn)象加劇,這都使得全模態(tài)對(duì)齊變得更加復(fù)雜。
為進(jìn)一步促進(jìn)多模態(tài)對(duì)齊研究,研究團(tuán)隊(duì)提出了Align-Anything框架,致力于使全模態(tài)大模型與人類意圖和價(jià)值觀對(duì)齊。
這里的全模態(tài)包括文生文、文生圖、文圖生文、文生視頻等任意到任意的輸入與輸出模態(tài)。
總體而言,框架設(shè)計(jì)了具備高度的模塊化、擴(kuò)展性以及易用性的對(duì)齊訓(xùn)練框架,支持由文本、圖片、視頻、音頻四大基本模態(tài)衍生出的任意模態(tài)模型對(duì)齊微調(diào),并驗(yàn)證了框架對(duì)齊算法的實(shí)現(xiàn)正確性。
該框架具有以下特點(diǎn):
- 高度模塊化:對(duì)不同算法類型的抽象化和精心設(shè)計(jì)的API,用戶能夠?yàn)椴煌娜蝿?wù)修改和定制代碼,以及定制化模型與數(shù)據(jù)集注冊(cè)等高級(jí)擴(kuò)展用法;
- 支持跨任意模態(tài)模型的微調(diào):包含對(duì)如LLaMA3.2、LLaVA、Chameleon、Qwen2-VL、Qwen2-Audio、Diffusion等跨越多種模態(tài)生成與理解的大模型的微調(diào)能力;
- 支持不同的對(duì)齊方法:支持任意模態(tài)上的多種對(duì)齊算法,既包括SFT、DPO、PPO等經(jīng)典算法,也包括ORPO, SimPO和KTO等新算法;
- 支持多種開(kāi)、閉源對(duì)齊評(píng)估:支持了30多個(gè)多模態(tài)評(píng)測(cè)基準(zhǔn),包括如MMBench、VideoMME等多模態(tài)理解評(píng)測(cè),以及如FID、HPSv2等多模態(tài)生成評(píng)測(cè)。
圖片
也就是說(shuō),Align-Anything團(tuán)隊(duì)從數(shù)據(jù)集、算法、評(píng)估以及代碼庫(kù)四個(gè)維度貢獻(xiàn)了開(kāi)源力量:
- 數(shù)據(jù):200k包含人類語(yǔ)言反饋和二元偏好的數(shù)據(jù)集,包含圖、文、視頻、語(yǔ)音全模態(tài)。
- 算法:從語(yǔ)言反饋中學(xué)習(xí)的合成數(shù)據(jù)范式,大幅提升RLHF后訓(xùn)練方法的表現(xiàn)。
- 評(píng)估:面向全模態(tài)模型的模態(tài)聯(lián)動(dòng)與模態(tài)選擇評(píng)估。
- 代碼庫(kù):支持圖、文、視頻、語(yǔ)音全模態(tài)訓(xùn)練與評(píng)估的代碼框架。
同時(shí),為了促進(jìn)對(duì)全模態(tài)對(duì)齊模型的進(jìn)一步開(kāi)發(fā),研究團(tuán)隊(duì)發(fā)布首個(gè)全模態(tài)人類偏好數(shù)據(jù)集Align-Anything。
與專注于單個(gè)模態(tài)且質(zhì)量參差不齊的現(xiàn)有偏好數(shù)據(jù)集不同,Align-Anything提供了高質(zhì)量的數(shù)據(jù),包括了輸入和輸出中的任何模態(tài)。
這旨在提供詳細(xì)的人類偏好注釋以及用于批評(píng)和改進(jìn)的精細(xì)語(yǔ)言反饋,從而實(shí)現(xiàn)跨模態(tài)的全面評(píng)估和改進(jìn)。
圖片
多模態(tài)場(chǎng)景加持的Deepseek-R1:Align-DS-V
接下來(lái),團(tuán)隊(duì)開(kāi)始攻堅(jiān)多模態(tài)場(chǎng)景加持下的Deepseek-R1會(huì)有怎樣的表現(xiàn)。
借鑒LLaVA的訓(xùn)練思路,通過(guò)訓(xùn)練投影層(Projector),Align-Anything團(tuán)隊(duì)將視覺(jué)編碼器(Vision Encoder)輸出映射到語(yǔ)言表征空間,從而擴(kuò)展了DeepSeek-R1的視覺(jué)模態(tài)。
在Align-Anything庫(kù)中,團(tuán)隊(duì)開(kāi)源了訓(xùn)練的全部流程。
首先,基于Deepseek-R1系列模型,構(gòu)建“文本 + 圖片-> 文本”架構(gòu)。例如以下腳本:
圖片
在新的多模態(tài)模型中,輸入圖像Xv經(jīng)過(guò)視覺(jué)編碼器提取特征,生成中間表示Zv,然后通過(guò)投影層進(jìn)行映射,得到視覺(jué)表征Hv。
與此同時(shí),語(yǔ)言指令Xq經(jīng)過(guò)處理,生成語(yǔ)言表征Hq。
這些視覺(jué)和語(yǔ)言特征共同輸入到語(yǔ)言模型,語(yǔ)言模型將兩種信息結(jié)合進(jìn)行推理,最終生成文本回復(fù)。
在構(gòu)建好模態(tài)擴(kuò)展的DeepSeek-R1架構(gòu)后,具體的訓(xùn)練分成兩個(gè)步驟:
第一步,凍結(jié)除投影層Projector外所有模型參數(shù),對(duì)投影層Projector進(jìn)行預(yù)訓(xùn)練,使得投影層Projector能夠?qū)⒔?jīng)過(guò)視覺(jué)編碼器的視覺(jué)表征映射到語(yǔ)言表征空間。
圖片
第二步,同時(shí)微調(diào)投影層Projector和大語(yǔ)言模型,激發(fā)語(yǔ)言模型多模態(tài)推理能力。
圖片
訓(xùn)練成功后,研究人員將多模態(tài)版本的DeepSeek-R1系列模型命名為Align-DS-V。
以下是Align-DS-V在不同視覺(jué)理解表現(xiàn)評(píng)測(cè)集上的表現(xiàn)(對(duì)比GPT-4o)。
可以看到,Align-DS-V在部分評(píng)測(cè)集(如llava-bench-coco)上的表現(xiàn)超過(guò)了GPT-4o。
圖片
除此之外,更重要的是團(tuán)隊(duì)還發(fā)現(xiàn)了模態(tài)穿透對(duì)于模型文本模態(tài)推理能力的提升效果。
具體來(lái)說(shuō),團(tuán)隊(duì)在DeepSeek-R1的全模態(tài)化嘗試中發(fā)現(xiàn),經(jīng)過(guò)多模態(tài)訓(xùn)練之后,模型在文本模態(tài)任務(wù)上的表現(xiàn)有所提升,在科學(xué)任務(wù)、復(fù)雜推理、數(shù)學(xué)代碼等方面的表現(xiàn)均有提升。
尤為顯著的是,在ARC-Challenge(5-shot)上,成績(jī)從單模態(tài)的21.4提升到了多模態(tài)的40.5。
圖片
由此團(tuán)隊(duì)認(rèn)為,基于“慢思考強(qiáng)推能力”的持續(xù)自我進(jìn)化,模型能力已經(jīng)突破了單一模態(tài)的局限性,跨模態(tài)穿透深度顯著提升。
通過(guò)深度融合世界知識(shí),模型在文本模態(tài)下的推理邊界得以拓展。
為驗(yàn)證全模態(tài)推理大模型在垂域應(yīng)用的能力,研發(fā)團(tuán)隊(duì)對(duì)Align-DS-V面向進(jìn)行香港地區(qū)價(jià)值觀的本地化對(duì)齊,令A(yù)lign-DS-V適應(yīng)粵語(yǔ)/英語(yǔ)/普通話混合語(yǔ)言輸入。
這一過(guò)程深度整合港鐵動(dòng)態(tài)、臺(tái)風(fēng)預(yù)警及八達(dá)通繳費(fèi)等香港本土生活場(chǎng)景。
在面對(duì)包含繁體字的圖文數(shù)學(xué)問(wèn)題時(shí),Align-DS-V能夠準(zhǔn)確聯(lián)動(dòng)圖文模態(tài)信息。
如圖所示,它逐步使用嚴(yán)密的數(shù)學(xué)推導(dǎo)展示求解過(guò)程,展示了被應(yīng)用于教育等行業(yè)的可信前景。
圖片
北大&港科大聯(lián)合開(kāi)發(fā)、開(kāi)源、維護(hù)
Align-Anything和Align-DS-V由北京大學(xué)聯(lián)合香港科技大學(xué)開(kāi)發(fā)。
目前,Align-Anything框架,以及DeepSeek-R1的多模態(tài)版本Align-DS-V,均已開(kāi)源,團(tuán)隊(duì)將攜手對(duì)其進(jìn)行長(zhǎng)期維護(hù)(文末附地址直通車)。
聯(lián)合研究團(tuán)隊(duì)中的北京大學(xué)對(duì)齊團(tuán)隊(duì),專注于人工智能系統(tǒng)的安全交互與價(jià)值對(duì)齊。
團(tuán)隊(duì)指導(dǎo)老師為北京大學(xué)人工智能研究院助理教授楊耀東。
聯(lián)合研究團(tuán)隊(duì)中的香港生成式人工智能研發(fā)中心(HK Generative AI R&D Center,HKGAI)成立于2023年10月,致力于推動(dòng)香港人工智能生態(tài)系統(tǒng)的發(fā)展。
由香港科技大學(xué)首席副校長(zhǎng),郭毅可院士領(lǐng)銜擔(dān)任中心主任。
量子位了解到,在Align-DS-V的基礎(chǔ)上,北大-靈初聯(lián)合實(shí)驗(yàn)室已經(jīng)著手在VLA(Vision Language Action Model,視覺(jué)語(yǔ)言動(dòng)作模型)領(lǐng)域方面做更深度的探索。
靈初正在研發(fā)的VLA模型,在大腦端利用多模態(tài)大模型進(jìn)行對(duì)齊和微調(diào),并向小腦端的控制器輸出action token;而后,小腦端的控制器再根據(jù)輸入的token和其他模態(tài)的信息,輸出具體的機(jī)器人控制指令。
這兩個(gè)過(guò)程都需要運(yùn)用針對(duì)多模態(tài)大模型的后訓(xùn)練(post-training)和微調(diào)(fine-tuning)技術(shù)。
北大-靈初聯(lián)合實(shí)驗(yàn)室表示,Align-DS-V的多模態(tài)強(qiáng)推理能力是VLA模型大腦端的核心,接下來(lái)的研究訓(xùn)練計(jì)劃,是利用多模態(tài)推理模型的跨模態(tài)穿透能力,實(shí)現(xiàn)action穿透,最終實(shí)現(xiàn)真正高效的VLA模型。
同樣的后訓(xùn)練技術(shù)也可以應(yīng)用于小腦端控制器的微調(diào),實(shí)現(xiàn)更高的成功率、泛化性和魯棒性。
Align-Anything框架開(kāi)源地址:https://github.com/PKU-Alignment/align-anythingAlign-DS-V開(kāi)源地址:https://huggingface.co/PKU-Alignment/Align-DS-V