自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

遷移DeepSeek-R1同款算法,小米讓7B模型登頂音頻理解推斷MMAU榜單

人工智能 新聞
MMAU是一個(gè)由一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本構(gòu)成的評(píng)測(cè)基準(zhǔn),難度非常高,人類專家的成績(jī)?yōu)?2.2%。

7B小模型+3.8萬條訓(xùn)練數(shù)據(jù),就能讓音頻理解和推斷評(píng)測(cè)基準(zhǔn)MMAU榜單王座易主?

受到DeepSeek-R1中強(qiáng)化學(xué)習(xí)算法的啟發(fā),小米大模型團(tuán)隊(duì)對(duì)阿里的Qwen2-Audio-7B模型進(jìn)行了微調(diào)。

結(jié)果模型在MMAU上的準(zhǔn)確率從49.2%提升到了64.5%(漲幅31%),比以前霸榜的GPT-4o還高出近10個(gè)百分點(diǎn)。

MMAU是一個(gè)由一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本構(gòu)成的評(píng)測(cè)基準(zhǔn),難度非常高,人類專家的成績(jī)?yōu)?2.2%。

圖片

來自阿里的Qwen2-Audio-7B模型在此評(píng)測(cè)集上的準(zhǔn)確率為49.2%,經(jīng)小米大模型團(tuán)隊(duì)用清華大學(xué)發(fā)布的AVQA數(shù)據(jù)集,使用SFT微調(diào)后提升到了51.8%。

這樣的提升并不明顯,而當(dāng)小米團(tuán)隊(duì)選擇改用DeepSeek-R1的GRPO算法時(shí),發(fā)現(xiàn)獲得了巨大的性能提升,一舉達(dá)到了MMAU的新SOTA。

目前,小米大模型團(tuán)隊(duì)已經(jīng)把訓(xùn)練代碼、模型參數(shù)開源,并提供了技術(shù)報(bào)告、在線Demo。

圖片

7B小模型拿下MMAU榜單SOTA

如前所述,小米大模型團(tuán)隊(duì)通過SFT,使用清華AVQA數(shù)據(jù)集對(duì)選擇了來自阿里的Qwen2-Audio-7B進(jìn)行了微調(diào),成績(jī)提升了2.6個(gè)百分點(diǎn)。

直到DeepSeek-R1的發(fā)布,為小米在該項(xiàng)任務(wù)上的研究帶來了啟發(fā)。

DeepSeek-R1的Group Relative Policy Optimization(GRPO)方法,讓模型僅通過”試錯(cuò)-獎(jiǎng)勵(lì)”機(jī)制就能使自主進(jìn)化,涌現(xiàn)出類似人類的反思、多步驗(yàn)證等推理能力。

在同一時(shí)間,卡內(nèi)基梅隆大學(xué)發(fā)布的預(yù)印本論文(arxiv:2503.01067),通過精巧的實(shí)驗(yàn)得出了一個(gè)有趣的論斷:

當(dāng)任務(wù)存在明顯的生成-驗(yàn)證差距(Generation-Verification Gap),即任務(wù)生成結(jié)果的難度遠(yuǎn)大于驗(yàn)證結(jié)果正確性的難度時(shí),強(qiáng)化學(xué)習(xí)比起有監(jiān)督微調(diào)具有獨(dú)特優(yōu)勢(shì)。

而AQA任務(wù),恰好是完美的生成-驗(yàn)證差距顯著的任務(wù)。

離線微調(diào)方法,如SFT,有點(diǎn)像背題庫(kù),你只能根據(jù)已有的題目和答案訓(xùn)練,但遇到新題可能不會(huì)做;

而強(qiáng)化學(xué)習(xí)方法,如GRPO,像老師在要求你多想幾個(gè)答案,然后老師告訴你哪一個(gè)答案好,讓你主動(dòng)思考,激發(fā)出自身的能力,而不是被“填鴨式”教學(xué)。

當(dāng)然,如果訓(xùn)練量足夠,比如有學(xué)生愿意花很多年的時(shí)間來死記硬背題庫(kù),也許最終也能達(dá)到不錯(cuò)的效果,但效率太低,浪費(fèi)太多時(shí)間。

而主動(dòng)思考,更容易快速地達(dá)到舉一反三的效果。強(qiáng)化學(xué)習(xí)的實(shí)時(shí)反饋可能會(huì)幫助模型更快鎖定高質(zhì)量答案的分布區(qū)域,而離線方法需要遍歷整個(gè)可能性空間,效率要低得多。

基于上述洞察,小米嘗試將DeepSeek-R1的GRPO算法遷移到Qwen2-Audio-7B模型上。

令人驚喜的是,在僅使用AVQA的3.8萬條訓(xùn)練樣本的情況下,強(qiáng)化學(xué)習(xí)微調(diào)后的模型在MMAU評(píng)測(cè)集上實(shí)現(xiàn)了64.5%的準(zhǔn)確率,這一成績(jī)比目前榜單上第一名的商業(yè)閉源模型GPT-4o有近10個(gè)百分點(diǎn)的優(yōu)勢(shì)。

有趣的是,如果在訓(xùn)練中強(qiáng)制要求模型輸出包含thinking標(biāo)簽的推理過程時(shí),準(zhǔn)確率反而下降至61.1%。這說明顯式的思維鏈結(jié)果輸出可能并不利于模型的訓(xùn)練。

小米大模型團(tuán)隊(duì)的實(shí)驗(yàn)揭示了幾個(gè)和傳統(tǒng)認(rèn)知不同的結(jié)論:

  • 關(guān)于微調(diào)方法:強(qiáng)化學(xué)習(xí)在3.8萬條數(shù)據(jù)集上的表現(xiàn),顯著超過監(jiān)督學(xué)習(xí)在57萬條數(shù)據(jù)集上的結(jié)果;
  • 關(guān)于參數(shù)規(guī)模:相比千億級(jí)模型,7B參數(shù)的模型通過強(qiáng)化學(xué)習(xí)也可展現(xiàn)強(qiáng)推理能力;
  • 關(guān)于隱式推理:顯式思維鏈輸出反而成為性能瓶頸。

盡管當(dāng)前準(zhǔn)確率已突破64%,但距離人類專家82%的水平仍有差距。

小米大模型團(tuán)隊(duì)表示,在當(dāng)前的實(shí)驗(yàn)中,強(qiáng)化學(xué)習(xí)策略還是比較粗糙,訓(xùn)練過程對(duì)思維鏈的引導(dǎo)并不充分,我們會(huì)在后續(xù)做進(jìn)一步探索。

此次實(shí)驗(yàn)驗(yàn)證了強(qiáng)化學(xué)習(xí)在音頻理解和判斷領(lǐng)域的獨(dú)特價(jià)值,也為后續(xù)研究打開了一扇新的大門。

小米團(tuán)隊(duì)期待,當(dāng)機(jī)器不僅能“聽見”聲音,還能“聽懂”聲音背后的因果邏輯時(shí),真正的智能聽覺時(shí)代將會(huì)來臨。

人類專家準(zhǔn)確率82.23%

MMAU(Massive Multi-Task Audio Understanding and Reasoning)評(píng)測(cè)集由美國(guó)馬里蘭大學(xué)和Adobe的研究人員于去年聯(lián)合提出,是音頻理解和推斷能力的量化標(biāo)尺。

它通過一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本,結(jié)合人類專家標(biāo)注的問答對(duì),測(cè)試模型在27種技能,如跨場(chǎng)景推理、專業(yè)知識(shí)等應(yīng)用上的表現(xiàn),期望模型達(dá)到接近人類專家的邏輯分析水平。

  • 面對(duì)一段汽車行駛中的座艙錄音,AI 能否判斷出汽車是否存在潛在的故障?
  • 在交響樂演出現(xiàn)場(chǎng),AI 能否推測(cè)出作曲家創(chuàng)造這首音樂時(shí)的心情?
  • 在早高峰地鐵站混亂的腳步聲潮中,AI 能否預(yù)判閘機(jī)口可能發(fā)生的沖撞風(fēng)險(xiǎn)?

圖片

在大模型時(shí)代,人們已經(jīng)不滿足于機(jī)器僅僅識(shí)別說話的內(nèi)容、聲音的種類,更期望機(jī)器具備復(fù)雜的理解和判斷能力,MMAU衡量的就是這種能力。

這是一個(gè)很難的評(píng)測(cè)集,作為基準(zhǔn)上限,人類專家在MMAU上的準(zhǔn)確率為82.23%。

目前MMAU官網(wǎng)榜單上表現(xiàn)最好的模型是GPT-4o,準(zhǔn)確率為57.3%。緊隨其后的是谷歌的Gemini 2.0 Flash,準(zhǔn)確率為55.6%。

訓(xùn)練代碼:https://github.com/xiaomi-research/r1-aqa

模型參數(shù):https://huggingface.co/mispeech/r1-aqa

技術(shù)報(bào)告:https://arxiv.org/abs/2503.11197交互Demo:http://120.48.108.147:7860/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-27 10:28:32

2025-03-10 08:30:00

AI模型訓(xùn)練

2025-02-19 08:00:00

2025-04-03 06:30:00

2024-08-13 15:40:00

2024-07-15 08:58:00

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-02-25 10:03:20

2024-07-18 12:53:13

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-03-06 17:29:21

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-02-13 08:51:23

DeepSeek大模型

2025-02-03 14:17:27

2024-10-24 14:30:00

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)