自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

業(yè)界突破多模態(tài)泛化推理能力,OPPO研究院&港科廣提出OThink-MR1技術(shù)

人工智能 新聞
來自O(shè)PPO研究院和港科廣的科研人員提出了一項(xiàng)新技術(shù)——OThink-MR1,將強(qiáng)化學(xué)習(xí)擴(kuò)展到多模態(tài)語言模型,幫助其更好地應(yīng)對(duì)各種復(fù)雜任務(wù)和新場景。

用上動(dòng)態(tài)強(qiáng)化學(xué)習(xí),多模態(tài)大模型也能實(shí)現(xiàn)泛化推理了?!

來自O(shè)PPO研究院和港科廣的科研人員提出了一項(xiàng)新技術(shù)——OThink-MR1,將強(qiáng)化學(xué)習(xí)擴(kuò)展到多模態(tài)語言模型,幫助其更好地應(yīng)對(duì)各種復(fù)雜任務(wù)和新場景。

研究人員表示,這一技術(shù)使業(yè)界突破多模態(tài)泛化推理能力。

圖片

眾所周知,多模態(tài)大模型可以處理多種類型輸入數(shù)據(jù)并生成相關(guān)輸出,但一遇到復(fù)雜推理任務(wù),其能力往往表現(xiàn)不佳。

目前大多數(shù)多模態(tài)模型在訓(xùn)練時(shí),主要采用監(jiān)督微調(diào)(SFT)的方法。

SFT就像是老師給學(xué)生劃重點(diǎn),讓學(xué)生按照固定的模式學(xué)習(xí)。雖然這種方法在特定任務(wù)上確實(shí)能讓模型表現(xiàn)得不錯(cuò),但難以培養(yǎng)關(guān)鍵的通用推理能力。

與此同時(shí),強(qiáng)化學(xué)習(xí)(RL)作為另一種訓(xùn)練方法,開始進(jìn)入人們的視野。

RL就像是讓學(xué)生在不斷嘗試中學(xué)習(xí),做得好就給獎(jiǎng)勵(lì),做得不好就“挨批評(píng)”。這種方法理論上可以讓模型更靈活地應(yīng)對(duì)各種任務(wù),提升其推理能力,但卻存在多模態(tài)任務(wù)通用能力未充分探索、訓(xùn)練約束易導(dǎo)致次優(yōu)瓶頸等問題。

圖片

于是乎,OThink-MR1技術(shù)應(yīng)運(yùn)而生。

那么,它是如何讓多模態(tài)模型突破泛化推理能力的呢?

基于動(dòng)態(tài)強(qiáng)化學(xué)習(xí)

OThink-MR1是一個(gè)基于動(dòng)態(tài)強(qiáng)化學(xué)習(xí)的框架和模型,支持微調(diào)多模態(tài)語言模型。

其核心“招式”有兩個(gè):一個(gè)是動(dòng)態(tài)KL散度策略(GRPO-D),另一個(gè)是精心設(shè)計(jì)的獎(jiǎng)勵(lì)模型。二者相互配合,讓模型的學(xué)習(xí)效率和推理能力大幅提升。

圖片

先說動(dòng)態(tài)KL散度策略。

在強(qiáng)化學(xué)習(xí)里,探索新的策略和利用已有經(jīng)驗(yàn)是兩個(gè)很重要的方面,但以前的方法很難平衡這二者的關(guān)系,不是在探索階段浪費(fèi)太多時(shí)間,就是過早地依賴已有經(jīng)驗(yàn)。

而動(dòng)態(tài)KL散度策略就像是給模型裝了一個(gè)“智能導(dǎo)航儀”,能根據(jù)訓(xùn)練進(jìn)度動(dòng)態(tài)調(diào)整探索和利用的平衡。

打個(gè)比方,在訓(xùn)練初期,它讓模型像個(gè)充滿好奇心的孩子,大膽地去探索各種可能的策略。而隨著訓(xùn)練的進(jìn)行,它又會(huì)引導(dǎo)模型逐漸利用之前積累的經(jīng)驗(yàn),沿著更靠譜的路線前進(jìn)。

這樣一來,模型就能更有效地學(xué)習(xí),避免陷入局部最優(yōu)解。

再說獎(jiǎng)勵(lì)模型。在OThink-MR1里,獎(jiǎng)勵(lì)模型就像是老師給學(xué)生打分的標(biāo)準(zhǔn)。

對(duì)于多模態(tài)任務(wù),科研人員設(shè)計(jì)了兩種獎(jiǎng)勵(lì):一種是驗(yàn)證準(zhǔn)確性獎(jiǎng)勵(lì),另一種是格式獎(jiǎng)勵(lì)。

比如在視覺計(jì)數(shù)任務(wù)中,模型要數(shù)出圖片里物體的數(shù)量,如果數(shù)對(duì)了,就能得到驗(yàn)證準(zhǔn)確性獎(jiǎng)勵(lì);同時(shí),如果模型的回答格式符合要求,像按照規(guī)定的格式寫下答案,還能獲得格式獎(jiǎng)勵(lì)。

這兩種獎(jiǎng)勵(lì)加起來,就像老師從多個(gè)方面給學(xué)生打分,讓模型知道自己在哪些地方做得好,哪些地方還需要改進(jìn),從而更有針對(duì)性地學(xué)習(xí)。

實(shí)驗(yàn)環(huán)節(jié)

為了驗(yàn)證OThink-MR1的實(shí)力,科研人員進(jìn)行了一系列實(shí)驗(yàn)。

第一個(gè)實(shí)驗(yàn)是探究獎(jiǎng)勵(lì)項(xiàng)和KL散度項(xiàng)對(duì)原始GRPO(一種基于強(qiáng)化學(xué)習(xí)的方法)在同任務(wù)驗(yàn)證中的影響。

在幾何推理任務(wù)中,科研人員調(diào)整格式獎(jiǎng)勵(lì)的權(quán)重,發(fā)現(xiàn)當(dāng)格式獎(jiǎng)勵(lì)的權(quán)重不為零時(shí),模型的表現(xiàn)明顯更好。這就好比學(xué)生寫作文,不僅內(nèi)容要正確,格式規(guī)范也能加分,這樣能讓學(xué)生更全面地提升自己的能力。

同時(shí),調(diào)整KL散度的權(quán)重時(shí),他們發(fā)現(xiàn)權(quán)重適中時(shí)模型表現(xiàn)最佳,太大或太小都會(huì)讓模型成績下降。

圖片

第二個(gè)實(shí)驗(yàn)是跨任務(wù)評(píng)估,這可是一場真正的“大考”。

以往的研究大多只在同一個(gè)任務(wù)的不同數(shù)據(jù)分布上評(píng)估模型的泛化能力,而這次實(shí)驗(yàn)直接讓模型挑戰(zhàn)完全不同類型的任務(wù)。

科研人員選擇了視覺計(jì)數(shù)任務(wù)和幾何推理任務(wù),這兩個(gè)任務(wù)難度不同,對(duì)模型的能力要求也不一樣。

圖片


在跨任務(wù)驗(yàn)證中,用監(jiān)督微調(diào)訓(xùn)練的模型表現(xiàn)得很差。就像一個(gè)只會(huì)做一種題型的學(xué)生,換了另一種題型就完全不會(huì)了。

而經(jīng)過GRPO-D訓(xùn)練的模型則表現(xiàn)出色,在從推理任務(wù)到理解任務(wù)的泛化實(shí)驗(yàn)中,它的成績相比沒有經(jīng)過訓(xùn)練的模型提高了很多;在從理解任務(wù)到推理任務(wù)的泛化實(shí)驗(yàn)中,雖然難度更大,但它也取得了不錯(cuò)的進(jìn)步。

這就好比一個(gè)學(xué)生不僅擅長數(shù)學(xué),還能快速掌握語文知識(shí),展現(xiàn)出了很強(qiáng)的學(xué)習(xí)能力。

圖片

第三個(gè)實(shí)驗(yàn)是同任務(wù)評(píng)估。

實(shí)驗(yàn)結(jié)果顯示,在同任務(wù)驗(yàn)證中,采用固定KL散度的GRPO方法不如監(jiān)督微調(diào),但OThink-MR1中的GRPO-D卻能逆襲。

它在視覺計(jì)數(shù)和幾何推理任務(wù)上,成績都超過了監(jiān)督微調(diào),這就像一個(gè)原本成績一般的學(xué)生,找到了適合自己的學(xué)習(xí)方法后,成績突飛猛進(jìn),直接超過了那些只會(huì)死記硬背的同學(xué)。

圖片

總體而言,OThink-MR1的出現(xiàn),為多模態(tài)語言模型的發(fā)展開辟了新的道路。

它讓我們看到了動(dòng)態(tài)強(qiáng)化學(xué)習(xí)在提升模型推理能力和泛化能力方面的巨大潛力。在未來,基于OThink-MR1這樣的技術(shù),多模態(tài)語言模型有望在更多領(lǐng)域發(fā)揮重要作用。

論文地址:https://arxiv.org/abs/2503.16081

? 標(biāo)題:OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning

? 作者:劉志遠(yuǎn)1, 章玉婷2, 劉豐1, 張長旺1, 孫瑩2, 王俊1

? 單位:1.OPPO研究院, 2.香港科技大學(xué)(廣州)

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-10-31 09:36:47

深度學(xué)習(xí)數(shù)據(jù)集

2025-02-08 13:30:00

2023-05-30 10:23:45

模型研究

2021-02-01 09:51:35

IBM中國研究院

2025-04-02 09:50:00

機(jī)器人訓(xùn)練數(shù)據(jù)

2024-08-08 13:04:28

2020-12-17 18:33:07

IBM計(jì)算內(nèi)存架構(gòu)人工智能

2016-06-12 09:31:28

華為

2022-04-22 11:22:47

達(dá)摩院阿里巴巴

2020-10-19 10:08:03

微軟斜屏技術(shù)

2023-05-08 10:14:07

模型AI

2022-11-07 14:48:53

2025-03-19 09:30:00

2009-12-07 09:28:15

IBM中國研究院面試

2015-06-08 13:36:49

2011-03-11 13:22:16

2022-12-08 15:31:36

模型人工智能

2024-12-13 14:30:00

AI模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)