o1的風(fēng)又吹到多模態(tài),直接吹翻了GPT-4o-mini
開(kāi)源LLaVA-o1:一個(gè)設(shè)計(jì)用于進(jìn)行自主多階段推理的新型VLM。與思維鏈提示不同,LLaVA-o1獨(dú)立地參與到總結(jié)、視覺(jué)解釋、邏輯推理和結(jié)論生成的順序階段。
LLaVA-o1超過(guò)了一些更大甚至是閉源模型的性能,例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。
基礎(chǔ)模型與LLaVA-o1的比較?;A(chǔ)模型Llama-3.2-11B-Vision-Instruct在推理過(guò)程中有明顯的缺陷,整個(gè)推理過(guò)程中出現(xiàn)了幾個(gè)錯(cuò)誤。相比之下,LLaVA-o1首先概述問(wèn)題,從圖像中解釋相關(guān)信息,然后進(jìn)行逐步推理過(guò)程,并最終得出一個(gè)有充分支持的結(jié)論。
LLaVA-o1如何煉成
LLaVA-o1模型的結(jié)構(gòu)化推理框架,專門(mén)的數(shù)據(jù)集和訓(xùn)練方法,以及推理時(shí)的階段性束搜索策略,來(lái)提高模型在復(fù)雜任務(wù)中的推理能力和擴(kuò)展性。
- 結(jié)構(gòu)化推理階段:
- 總結(jié)階段(Summary Stage):LLaVA-o1在這一階段提供對(duì)問(wèn)題的高層次總結(jié),概述它打算解決的問(wèn)題的主要方面。
- 圖像描述階段(Caption Stage):如果存在圖像,LLaVA-o1提供與問(wèn)題相關(guān)的圖像元素的簡(jiǎn)潔概述,幫助理解多模態(tài)輸入。
- 推理階段(Reasoning Stage):在初始總結(jié)的基礎(chǔ)上,LLaVA-o1進(jìn)行結(jié)構(gòu)化、邏輯推理,得出初步答案。
- 結(jié)論階段(Conclusion Stage):在最后階段,LLaVA-o1根據(jù)前面的推理綜合答案。結(jié)論階段的輸出是直接提供給用戶的響應(yīng),而前三個(gè)階段是內(nèi)部的“隱藏階段”,代表LLaVA-o1的推理過(guò)程。
- 四對(duì)特殊標(biāo)簽:<SUMMARY></SUMMARY>、<CAPTION></CAPTION>、<REASONING></REASONING>和<CONCLUSION></CONCLUSION>
- 數(shù)據(jù)準(zhǔn)備和模型訓(xùn)練:
- 由于現(xiàn)有的視覺(jué)問(wèn)題回答(VQA)數(shù)據(jù)集缺乏訓(xùn)練LLaVA-o1所需的詳細(xì)推理過(guò)程,研究者們編譯了一個(gè)新的數(shù)據(jù)集LLaVA-o1-100k,整合了多個(gè)廣泛使用的VQA數(shù)據(jù)集的樣本。
- 使用GPT-4o生成包括總結(jié)、圖像描述、推理和結(jié)論的詳細(xì)推理過(guò)程,并將這些編譯成LLaVA-o1-100k數(shù)據(jù)集。
- 選擇了Llama-3.2-11B-Vision-Instruct模型作為基礎(chǔ)模型,并使用LLaVA-o1-100k數(shù)據(jù)集進(jìn)行全參數(shù)微調(diào)。
- 有效的推理時(shí)擴(kuò)展使用階段性束搜索:
- 訓(xùn)練完成后的目標(biāo)是在推理期間進(jìn)一步增強(qiáng)模型的推理能力。LLaVA-o1的輸出設(shè)計(jì)為結(jié)構(gòu)化,提供了理想的粒度,用于推理時(shí)擴(kuò)展。
- 采用階段性束搜索方法,該方法在每個(gè)推理階段生成多個(gè)候選結(jié)果,并選擇最佳結(jié)果以繼續(xù)生成過(guò)程。
- 通過(guò)在每個(gè)階段進(jìn)行有效的驗(yàn)證,這種方法驗(yàn)證了結(jié)構(gòu)化輸出在提高推理時(shí)擴(kuò)展中的有效性。
推理方法的示意圖。最佳選擇法(Best-of-N search)生成N個(gè)完整的響應(yīng),并從中選擇最好的一個(gè);句子級(jí)束搜索(Sentence-level Beam Search)為每個(gè)句子生成多個(gè)候選項(xiàng)并選擇最好的一個(gè)。相比之下,LLaVA-o1的階段性束搜索(Stage-level Beam Search)為每個(gè)推理階段(例如,總結(jié)、標(biāo)題、推理和結(jié)論)生成候選項(xiàng),并在每個(gè)階段選擇最佳選項(xiàng)。最佳選擇法在粗略層面上操作,而句子級(jí)束搜索過(guò)于細(xì)致,而LLaVA-o1的方法實(shí)現(xiàn)了最佳平衡并取得了最佳性能。
有無(wú)階段性束搜索的LLaVA-o1性能比較。LLaVA-o1的階段性束搜索在模型推理過(guò)程中有效地選擇了更好的推理。
實(shí)驗(yàn)數(shù)據(jù)
- LLaVA-o1在多模態(tài)推理基準(zhǔn)測(cè)試中相較于其基礎(chǔ)模型Llama-3.2-11B-Vision-Instruct實(shí)現(xiàn)了8.9%的性能提升。
- LLaVA-o1在各種基準(zhǔn)測(cè)試中不僅超越了基礎(chǔ)模型,還超過(guò)了一些更大甚至是閉源模型,例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。
- 結(jié)構(gòu)化標(biāo)簽(structured tags)對(duì)于模型性能至關(guān)重要。去除這些標(biāo)簽后,模型性能顯著下降,說(shuō)明這些標(biāo)簽有助于推理過(guò)程并提高了模型性能。
https://arxiv.org/pdf/2411.10440
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
https://github.com/PKU-YuanGroup/LLaVA-o1
本文轉(zhuǎn)載自??PaperAgent??
