9B參數(shù)吊打GPT-4V!NVIDIA開(kāi)源新模型(Eagle 2),竟靠“透明數(shù)據(jù)”逆襲? 原創(chuàng)
01、概述
近年來(lái),視覺(jué)-語(yǔ)言模型(VLMs)在人工智能領(lǐng)域的迅猛發(fā)展,極大拓展了機(jī)器處理多模態(tài)信息的能力。然而,在這項(xiàng)技術(shù)的進(jìn)步背后,依然存在著一些亟待解決的挑戰(zhàn)。像 GPT-4V 和 Gemini-1.5-Pro 這樣的專(zhuān)有模型雖然表現(xiàn)出色,但它們的透明度較低,這限制了它們的適應(yīng)性和開(kāi)放性。而開(kāi)放源代碼的替代模型常常因數(shù)據(jù)多樣性、訓(xùn)練方法和計(jì)算資源的限制,難以與這些專(zhuān)有模型抗衡。此外,關(guān)于后期訓(xùn)練數(shù)據(jù)策略的文獻(xiàn)資料相對(duì)匱乏,使得這些模型的復(fù)制和改進(jìn)變得困難。
為了解決這些問(wèn)題,NVIDIA AI 推出了 Eagle 2,一款采用結(jié)構(gòu)化、透明的數(shù)據(jù)策劃和模型訓(xùn)練方法的視覺(jué)-語(yǔ)言模型(VLM)。Eagle 2 提供了一個(gè)全新的視角,讓開(kāi)放源代碼社區(qū)能夠在不依賴(lài)專(zhuān)有數(shù)據(jù)集的情況下,構(gòu)建具有競(jìng)爭(zhēng)力的 VLM。
02、Eagle 2:以透明為核心的數(shù)據(jù)策略
Eagle 2 的最大亮點(diǎn)在于它的開(kāi)放數(shù)據(jù)策略。與大多數(shù)僅提供訓(xùn)練權(quán)重的模型不同,Eagle 2 詳細(xì)介紹了數(shù)據(jù)收集、過(guò)濾、增強(qiáng)和選擇的整個(gè)過(guò)程。這一做法的目標(biāo)是為開(kāi)放源代碼社區(qū)提供一套完整的工具,使得社區(qū)成員可以在透明的框架下開(kāi)展自己的 VLM 開(kāi)發(fā)工作,而不再依賴(lài)于封閉的專(zhuān)有數(shù)據(jù)集。
Eagle2-9B 是 Eagle 2 系列中最先進(jìn)的模型,其性能已經(jīng)能夠與一些擁有 70B 參數(shù)的模型媲美,證明了在優(yōu)化后期訓(xùn)練數(shù)據(jù)策略的同時(shí),不必消耗過(guò)多的計(jì)算資源。
03、Eagle 2 的三大創(chuàng)新亮點(diǎn)
Eagle 2 的成功,離不開(kāi)以下三大創(chuàng)新:
1) 數(shù)據(jù)策略:多樣性?xún)?yōu)先,質(zhì)量為先
Eagle 2 的數(shù)據(jù)策劃遵循 “多樣性?xún)?yōu)先,質(zhì)量為先” 的原則。首先,從超過(guò) 180 個(gè)數(shù)據(jù)源中采集數(shù)據(jù),隨后通過(guò)篩選和選擇進(jìn)行精煉。在這個(gè)過(guò)程中,Eagle 2 引入了詳細(xì)的數(shù)據(jù)處理流程,包括錯(cuò)誤分析、鏈?zhǔn)剿季S(CoT)推理、基于規(guī)則的問(wèn)答生成以及數(shù)據(jù)格式化,旨在提高訓(xùn)練效率。
2) 三階段訓(xùn)練框架:逐步提升模型能力
Eagle 2 的訓(xùn)練方法分為三個(gè)階段,每個(gè)階段都在強(qiáng)化模型的不同能力:
- 階段 1:通過(guò)訓(xùn)練多層感知器(MLP)連接器,調(diào)整視覺(jué)和語(yǔ)言的跨模態(tài)對(duì)接。
- 階段 1.5:引入更大規(guī)模的數(shù)據(jù),進(jìn)一步夯實(shí)模型的基礎(chǔ)。
- 階段 2:使用高質(zhì)量的指令調(diào)優(yōu)數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào),提升其在實(shí)際應(yīng)用中的表現(xiàn)。
3) Tiled Mixture of Vision Encoders(MoVE)架構(gòu)
Eagle 2 采用了兩種視覺(jué)編碼器——SigLIP 和 ConvNeXt,結(jié)合高分辨率的切片方法確保在處理圖像時(shí),能夠高效地保留細(xì)粒度的圖像細(xì)節(jié)。此外,Eagle 2 還通過(guò)一種平衡意識(shí)的貪心背包方法優(yōu)化了數(shù)據(jù)打包,提高了樣本效率,同時(shí)減少了訓(xùn)練成本。
04、Eagle 2 的性能與基準(zhǔn)測(cè)試
Eagle 2 經(jīng)歷了嚴(yán)格的性能測(cè)試,展現(xiàn)了出色的多項(xiàng)基準(zhǔn)測(cè)試表現(xiàn):
- DocVQA:Eagle2-9B 在該任務(wù)中達(dá)到了 92.6% 的準(zhǔn)確率,超越了 InternVL2-8B(91.6%)和 GPT-4V(88.4%)。
- OCRBench:在該任務(wù)中,Eagle 2 取得了 868 分,超越了 Qwen2-VL-7B(845)和 MiniCPM-V-2.6(852),展示了其在文本識(shí)別方面的強(qiáng)大能力。
- MathVista:Eagle 2 的表現(xiàn)較基準(zhǔn)提升了超過(guò) 10 個(gè)點(diǎn),進(jìn)一步驗(yàn)證了三階段訓(xùn)練方法的有效性。
- 多模態(tài)推理任務(wù)(如 ChartQA 和 OCR QA):Eagle 2 在這些任務(wù)中也表現(xiàn)出色,超越了 GPT-4V。
此外,Eagle 2 的訓(xùn)練過(guò)程經(jīng)過(guò)優(yōu)化,采用了先進(jìn)的子集選擇技術(shù),將數(shù)據(jù)集的規(guī)模從 1270 萬(wàn)樣本減少至 460 萬(wàn)樣本,同時(shí)保持了準(zhǔn)確性,并提高了數(shù)據(jù)利用效率。
05、總結(jié):Eagle 2 —— 更具透明度和開(kāi)放性的 VLM 解決方案
Eagle 2 的發(fā)布,標(biāo)志著在使高性能視覺(jué)-語(yǔ)言模型更加可訪問(wèn)和可復(fù)制方面邁出了重要一步。通過(guò)強(qiáng)調(diào)透明的數(shù)據(jù)驅(qū)動(dòng)方法,Eagle 2 在開(kāi)放源代碼社區(qū)與專(zhuān)有模型性能之間架起了橋梁。它在數(shù)據(jù)策略、訓(xùn)練方法和視覺(jué)架構(gòu)上的創(chuàng)新,使其成為研究人員和開(kāi)發(fā)者的理想選擇。
通過(guò)公開(kāi)分享其方法論,NVIDIA AI 不僅促進(jìn)了一個(gè)協(xié)作的人工智能研究環(huán)境,還使得社區(qū)成員可以在此基礎(chǔ)上進(jìn)一步創(chuàng)新,而不必依賴(lài)封閉的源代碼模型。隨著人工智能技術(shù)的不斷演進(jìn),Eagle 2 將成為思考數(shù)據(jù)策劃和訓(xùn)練策略如何推動(dòng) VLM 發(fā)展的典范。
本文轉(zhuǎn)載自公眾號(hào)Halo咯咯 作者:基咯咯
原文鏈接:??https://mp.weixin.qq.com/s/OI0ykpgOR9v6h2RawYW-6Q??
