國內(nèi)多所高校共建開源社區(qū)LAMM,加入多模態(tài)語言模型大家庭的時候到了
ChatGPT問世以來,大語言模型(LLM)實(shí)現(xiàn)了跳躍式發(fā)展,基于自然語言進(jìn)行人機(jī)交互的AI范式得到廣泛運(yùn)用。然而,人類與世界的交互中不僅有文本,其他諸如圖片、深度等模態(tài)也同樣重要。然而,目前的多模態(tài)大語言模型(MLLM)研究大多數(shù)閉源,對高校和大多數(shù)研究機(jī)構(gòu)的同學(xué)們并不友好。而且,大語言模型受限于訓(xùn)練知識,往往缺乏時事認(rèn)知、復(fù)雜推理能力,這就如同只能快速問答,沒有“深度思考”能力。AI Agent(人工智能代理)則是解決這一問題的關(guān)鍵,它賦予LLM深度思考、復(fù)雜決策的能力,使LLM向自主性、反應(yīng)性、積極性和社交能力特征的智能實(shí)體發(fā)展。我們相信,AI Agent領(lǐng)域?qū)Q生更多改變生活工作方式的成果,是大語言模型及多模態(tài)大模型的重要進(jìn)化方向。
來自北航、復(fù)旦大學(xué)、悉尼大學(xué)、香港中文大學(xué)(深圳)等高校與上海人工智能實(shí)驗(yàn)室的學(xué)者共同推出多模態(tài)語言模型最早的開源社區(qū)之一 ——LAMM(Language-Assisted Multi-modal Model)。我們旨在將 LAMM 建設(shè)成一個不斷發(fā)展的社區(qū)生態(tài),支持 MLLM 訓(xùn)練和評測、MLLM 驅(qū)動的 Agent 等方向的研究。作為多模態(tài)大語言模型領(lǐng)域最早的開源項(xiàng)目之一,LAMM 的目標(biāo)是建立一個開放的研究社區(qū)生態(tài),讓每個研究和開發(fā)人員都可以基于此開展研究,共同建設(shè)開源社區(qū)。
- 項(xiàng)目主頁:https://openlamm.github.io
- 代碼地址:https://www.github.com/OpenGVLab/LAMM
在這里,你可以 :
- 以最小的計算資源成本訓(xùn)練和評估 MLLM,僅需 3090 或 V100,輕松開始 MLLM 的訓(xùn)練和評測。
- 構(gòu)建基于 MLLM 的具身智能 Agent,能夠使用機(jī)器人或游戲模擬器定義任務(wù)并生成數(shù)據(jù)。
- 在幾乎任何專業(yè)領(lǐng)域擴(kuò)展 MLLM 應(yīng)用。
開源框架
LAMM 代碼庫實(shí)現(xiàn)了統(tǒng)一的數(shù)據(jù)集格式、組件式模型設(shè)計、一鍵式分布式訓(xùn)練,方便用戶啟動和實(shí)現(xiàn)自己專屬的多模態(tài)語言模型。
- 使用標(biāo)準(zhǔn)數(shù)據(jù)集格式兼容不同指令微調(diào)數(shù)據(jù)集。LAMM 定義了標(biāo)準(zhǔn)化多模態(tài)指令微調(diào)數(shù)據(jù)格式,可以多模態(tài)指令微調(diào)常用的 LLaVA、LAMM、ShareGPT4V 等數(shù)據(jù)集可以直接無縫適配,一鍵啟動。
- 組件式搭建模型流程,方便地更新和修改模型架構(gòu)。LAMM 中模型以視覺編碼器(Vision Encoder)、特征映射器(Feature Projector)、語言模型(LLM)為主要組件。目前 LAMM 已經(jīng)支持 Image、Point Cloud 等模態(tài)編碼器和 LLaMA/LLaMA2 等預(yù)訓(xùn)練語言模型,用戶可以自由選擇適合需求的模塊搭建 pipeline,實(shí)現(xiàn)自己專屬的 MLLM。
- 以最小計算資源訓(xùn)練和評測 MLLM。LAMM Repo 集成了 Deepspeed、LightLLM、flash attention 等加速框架,將訓(xùn)練成本大幅優(yōu)化。目前已經(jīng)支持在 4 張 RTX3090 或更新設(shè)備上微調(diào) 7B 的語言模型。同時 LAMM 也在不斷跟進(jìn)新的大語言模型和優(yōu)化框架,以推動多模態(tài)領(lǐng)域的發(fā)展。
- 基于 MLLM 構(gòu)建具身智能 AI Agent。使用機(jī)器人或模擬器定義目標(biāo)任務(wù)并生成相應(yīng)指令數(shù)據(jù)后,LAMM 支持的 MLLM 可以作為強(qiáng)大的 AI Agent 進(jìn)行決策和分析。
更多詳情請參考項(xiàng)目主頁。
多模態(tài)大語言模型訓(xùn)練與評測
近期大量工作展現(xiàn)了多模態(tài)大模型 (MLLM) 在視覺內(nèi)容理解和交互上的能力,并且體現(xiàn)出了解決更為復(fù)雜的下游任務(wù)應(yīng)用的能力。除了常見的圖片輸入,LAMM 目前還支持點(diǎn)云等視覺模態(tài)輸入,用戶也可以根據(jù)自己的需求加入新的編碼器。同時,LAMM 支持 PEFT 包進(jìn)行高效微調(diào),也引入了 flash attention、xformer 等工具進(jìn)一步優(yōu)化模型計算成本,使得用戶能夠用盡可能低的成本訓(xùn)練 MLLM。面對復(fù)雜的多任務(wù)學(xué)習(xí),LAMM 也支持 MoE 等策略統(tǒng)一多組微調(diào)參數(shù),進(jìn)一步提高模型多任務(wù)能力,實(shí)現(xiàn)更全能的 MLLM。
然而,由于缺乏一個標(biāo)準(zhǔn)化的全面評估框架,這些模型的能力和局限性尚未被全面探索,我們?nèi)匀粺o法確認(rèn)這些模型的能力究竟如何,他們究竟能做什么事情?,F(xiàn)有的基準(zhǔn)測試工作主要集中于為多模態(tài)大模型構(gòu)建多模態(tài)評估數(shù)據(jù)集,或僅評估了一部分的視覺能力維度,或嘗試建立了一個評測框架但缺乏可擴(kuò)展性和全面性,對各個模型的全面評估和不同模型間進(jìn)行公平可靠的對比仍然具有挑戰(zhàn)性。LAMM 實(shí)現(xiàn)了一種具有高度可擴(kuò)展性和靈活性的評測框架,旨在為多模態(tài)大模型提供一種可靠的、全面的評估。
詳情可參考 https://openlamm.github.io/paper_list/ChEF
一鍵式組合式多模態(tài)語言模型評測框架
基于 LAMM 框架的多模態(tài)模型能力部分展示如下:
基于 2D 圖像內(nèi)容的問答:
基于 3D 點(diǎn)云的視覺問答:
多模態(tài)大語言模型驅(qū)動的具身 Agent
近期大量工作借助大語言模型 (LLM) 的強(qiáng)大推理規(guī)劃能力來構(gòu)建 Agent,例如 Minecraft 中的 Voyager 和 GITM 都借助 LLM 和文本記憶來規(guī)劃智能體的行動,但是這些工作都假定智能體可以在規(guī)劃決策的時候獲取所有正確的環(huán)境感知信息,直接跳過感知階段,忽視了實(shí)時的第一人稱視角圖片對具身智能體規(guī)劃自身行動的影響,這在現(xiàn)實(shí)生活中也是不可能存在的。
為了讓具身智能體在開放世界復(fù)雜環(huán)境中更好地感知環(huán)境,我們提出了以MLLM驅(qū)動的具身智能體MP5,其特點(diǎn)在于具備視覺感知和主動感知能力。視覺感知模塊(模型主要架構(gòu)為LAMM)允許MP5解決以前從未見過的任務(wù),主動感知可以主動獲取環(huán)境信息,以執(zhí)行合適動作。最終 MP5 具有開放感知能力,并能根據(jù)不同的目的提供量身定制的感知結(jié)果,可以完成長時序及復(fù)雜環(huán)境信息任務(wù)。
下面是 MP5 在 Minecraft 這一開放世界中完成「在晴天且光線充足的情況下,找到一頭在平原且靠近水附近有草的豬」這一需要復(fù)雜環(huán)境信息的任務(wù)的演示過程。
總結(jié)
基于 MLLM 的強(qiáng)大能力和廣闊應(yīng)用前景,多模態(tài)學(xué)習(xí)來到了一個全新的階段。LAMM 旨在建設(shè)一個助力多模態(tài)大模型研究的開源社區(qū),并向社區(qū)開源了包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、性能評測所有相關(guān)數(shù)據(jù)。
作為最早一批投入多模態(tài)語言模型研究的團(tuán)隊(duì),我們希望不斷發(fā)展 LAMM 工具箱,為 LAMM 開源生態(tài)提供輕量易用的多模態(tài)研究框架,和開源力量合作,助力更多有意義的研究。
以上內(nèi)容均會在 LAMM 主頁持續(xù)開源,請大家關(guān)注我們的主頁和項(xiàng)目,也歡迎為 LAMM 代碼庫多多提交反饋和 PR。