自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="9oggn"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

北大等發(fā)布多模態(tài)版o1！首個(gè)慢思考VLM將開(kāi)源，視覺(jué)推理超越閉源模型

作者：量子位 2024-11-19 15:00:00

人工智能開(kāi)源

代號(hào)LLaVA-o1，基于Llama-3.2-Vision模型打造，超越傳統(tǒng)思維鏈提示，實(shí)現(xiàn)自主“慢思考”推理。

北大等出品，首個(gè)多模態(tài)版o1開(kāi)源模型來(lái)了——

代號(hào)LLaVA-o1，基于Llama-3.2-Vision模型打造，超越傳統(tǒng)思維鏈提示，實(shí)現(xiàn)自主“慢思考”推理。

在多模態(tài)推理基準(zhǔn)測(cè)試中，LLaVA-o1超越其基礎(chǔ)模型8.9%，并在性能上超越了一眾開(kāi)閉源模型。

新模型具體如何推理，直接上實(shí)例，比如問(wèn)題是：

減去所有的小亮球和紫色物體，剩下多少個(gè)物體？選項(xiàng)：A. 4，B. 8，C. 2，D. 6

傳統(tǒng)提示詞方法還是老路子，讓Llama-3.2-11B-Vision-Instruct打個(gè)樣就是：

第一步減去所有的小亮球；
第二步減去所有紫色物體；
最后給出答案，鑒于我們已經(jīng)移除了所有的小亮球，而且一開(kāi)始就沒(méi)有紫色物體，正確答案是C. 2；

哐哐一頓輸出，得出錯(cuò)誤結(jié)果。

我們?cè)賮?lái)看LLaVA-o1的推理過(guò)程：

總結(jié)階段：?jiǎn)栴}是什么？我應(yīng)該怎么做？
注釋階段：我能從這張圖片中知道什么？
推理階段：如何一步一步解決問(wèn)題？
結(jié)論階段：最終答案是什么？

是不是明顯不同。這就對(duì)了，LLaVA-o1超越傳統(tǒng)COT思維鏈，采用了結(jié)構(gòu)化、多步驟推理。

簡(jiǎn)單說(shuō)，它將推理過(guò)程劃分為四個(gè)階段，并在每一階段采用優(yōu)中選優(yōu)策略來(lái)為下一階段提供響應(yīng)。

難怪看完最新效果，網(wǎng)友們直呼：推理 is all you need！

看來(lái)，讓模型思考更多在多模態(tài)領(lǐng)域也同樣適用——

“第一個(gè)能自發(fā)、系統(tǒng)推理的視覺(jué)語(yǔ)言模型”

前一陣，o1模型的發(fā)布又帶火了COT思維鏈這一推理模式。（像人類一樣步步思考）

于是，讓模型思考更多是否會(huì)提高模型能力成為新的研究熱點(diǎn)。

這不，除了像o1這樣的通用大語(yǔ)言模型，北大團(tuán)隊(duì)還瞄上了多模態(tài)這一領(lǐng)域——

他們超越傳統(tǒng)COT思維鏈，采用結(jié)構(gòu)化、多步驟推理，一舉推出多模態(tài)版o1模型——LLaVA-o1。

作者先澄清了一下，雖然最近的VLM模型有類似名稱，但LLaVA-o1是建立在Llama-3.2-Vision模型之上，而不是LLaVA。

那么，學(xué)會(huì)逐步推理的LLaVA-o1有多大提升呢？

根據(jù)論文介紹，僅用一個(gè)包含10萬(wàn)訓(xùn)練樣本的數(shù)據(jù)集，LLaVA-o1在多模態(tài)推理基準(zhǔn)測(cè)試中超越了其基礎(chǔ)模型8.9%，并且在性能上超越了更大的模型。

甚至包括一些閉源模型，如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

針對(duì)這一提升，團(tuán)隊(duì)也發(fā)現(xiàn)了背后的關(guān)鍵原因：

結(jié)構(gòu)化響應(yīng)顯著提高了模型的系統(tǒng)推理能力

為了使LLaVA-o1更加結(jié)構(gòu)化和系統(tǒng)化，團(tuán)隊(duì)設(shè)計(jì)了4個(gè)標(biāo)簽來(lái)幫助模型識(shí)別當(dāng)前的推理階段，并使用GPT-4o來(lái)生成LLaVA-o1-100k數(shù)據(jù)集。

<摘要>：該模型簡(jiǎn)要解釋了接下來(lái)的任務(wù)
<標(biāo)題>：它描述了圖像中的重要細(xì)節(jié)（如果有）
<理由>：它詳細(xì)分析了這個(gè)問(wèn)題
<結(jié)論>：它基于分析提供最終答案

借助這些標(biāo)簽，LLaVA-o1將推理過(guò)程劃分為四個(gè)明確的階段：總結(jié)（Summary）、視覺(jué)解釋（Caption）、邏輯推理（Reasoning）和結(jié)論生成（Conclusion）。

與思維鏈提示不同，LLaVA-o1獨(dú)立參與了這些連續(xù)階段。

不過(guò)需要提醒，在LLaVA-o1的推理過(guò)程中，前三個(gè)階段都在內(nèi)部處理（對(duì)用戶隱藏），而最終結(jié)論階段才是用戶可以看到并直接與之交互的。

采用這種設(shè)計(jì)，可以使模型在不向用戶暴露復(fù)雜推理細(xì)節(jié)的情況下，提供清晰和準(zhǔn)確的答案。

接下來(lái)，LLaVA-o1通過(guò)監(jiān)督微調(diào)和階段級(jí)光束搜索方法（stage-level beam search method）來(lái)進(jìn)一步提升推理能力和推理時(shí)間的可擴(kuò)展性。

這里我們重點(diǎn)說(shuō)一下團(tuán)隊(duì)創(chuàng)新提出的階段級(jí)光束搜索方法。

簡(jiǎn)單說(shuō)，團(tuán)隊(duì)為每個(gè)階段（用標(biāo)簽標(biāo)記）生成多個(gè)響應(yīng)，并選擇其中最佳的一個(gè)進(jìn)入下一階段。

更具體的，這是一種用于推理時(shí)間擴(kuò)展（Inference-time scaling）的技術(shù)，與傳統(tǒng)方法不同，階段級(jí)光束搜索專注于模型推理過(guò)程中的每個(gè)獨(dú)立階段。

在這種方法中，模型在每個(gè)推理階段生成多個(gè)候選結(jié)果，然后從中選擇最佳的結(jié)果繼續(xù)下一個(gè)階段的推理。

由于它允許模型在每個(gè)階段進(jìn)行選擇和優(yōu)化，從而提高了整體推理的質(zhì)量。

通過(guò)這種分階段的搜索策略，LLaVA-o1能夠更有效地進(jìn)行推理，尤其是在處理復(fù)雜的多模態(tài)推理任務(wù)時(shí)。

最后，通過(guò)對(duì)Llama-3.2-11B-Vision-Instruct模型的微調(diào)，結(jié)果顯示：

LLaVA-o1在多模態(tài)推理基準(zhǔn)測(cè)試上使用10萬(wàn)個(gè)訓(xùn)練樣本和簡(jiǎn)單的推理時(shí)間擴(kuò)展方法，實(shí)現(xiàn)了8.9%的性能提升，超越了同等規(guī)模以及更大或閉源的模型。

北大、鵬城實(shí)驗(yàn)室等團(tuán)隊(duì)出品

簡(jiǎn)單認(rèn)識(shí)一下研究背后的團(tuán)隊(duì)，論文作者一共6人，下面一一介紹。

Guowei Xu，目前本科就讀于清華姚班，對(duì)強(qiáng)化學(xué)習(xí)、機(jī)器人和科學(xué)領(lǐng)域的AI應(yīng)用感興趣。

去年入學(xué)以來(lái)，他已在國(guó)際學(xué)術(shù)會(huì)議上參與發(fā)表多篇論文，并獲得2024新生一等獎(jiǎng)。

Peng Jin（金鵬），曾在清華大學(xué)獲得學(xué)士學(xué)位，目前是北大三年級(jí)博士生，師從袁粒。

他對(duì)文本-視頻檢索、跨模態(tài)表示學(xué)習(xí)以及多模態(tài)大語(yǔ)言模型感興趣，從2022年9月至今，已有11篇論文被頂會(huì)接收。

和他同樣北大博三，師從袁粒的，還有Hao Li（李昊），不過(guò)李昊之前畢業(yè)于北大計(jì)算機(jī)科學(xué)系。

李昊對(duì)多模態(tài)學(xué)習(xí)、視覺(jué)理解和化學(xué)科學(xué)人工智能感興趣，至今已在國(guó)際頂會(huì)上發(fā)表了20多篇論文，總谷歌學(xué)術(shù)引用量300+。

而他們的老師袁粒，量子位的讀者想必都很熟悉了。

袁粒目前是北大深圳研究生院助理教授，專注于多模態(tài)深度學(xué)習(xí)研究方向，一作論文單篇被引用千余次。

屢屢登上熱搜的ChatExcel、ChatLaw等垂直領(lǐng)域產(chǎn)品，都是出自他的團(tuán)隊(duì)。

另外兩位作者：

Yibing Song（宋奕兵），目前是阿里達(dá)摩院研究員/研究經(jīng)理，之前還是復(fù)旦大學(xué)的一名教師，并在騰訊AI實(shí)驗(yàn)室擔(dān)任高級(jí)研究員。

他當(dāng)前主要對(duì)多模態(tài)AI感興趣，至今發(fā)表了50多篇頂級(jí)論文，而且被斯坦福大學(xué)選為全球前2%的科學(xué)家之一。

Lichao Sun，目前是美國(guó)萊赫大學(xué)計(jì)算機(jī)科學(xué)與工程系助理教授。

在此之前，他于2020年在伊利諾伊大學(xué)芝加哥分校獲得計(jì)算機(jī)科學(xué)博士學(xué)位。

他還是多項(xiàng)獎(jiǎng)項(xiàng)的獲得者，包括2024年微軟加速基礎(chǔ)模型研究獎(jiǎng)、2024年OpenAI研究員獎(jiǎng)和NSF CRII獎(jiǎng)。

接下來(lái)，團(tuán)隊(duì)宣布LLaVA-o1的代碼、預(yù)訓(xùn)練權(quán)重、數(shù)據(jù)集等即將全部開(kāi)源。

感興趣的童鞋可以蹲一波了~

論文：https://arxiv.org/abs/2411.10440
GitHub：https://github.com/PKU-YuanGroup/LLaVA-o1

責(zé)任編輯：張燕妮來(lái)源：量子位

模型開(kāi)源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="lq4e5"></sub>

<sub id="lq4e5"></sub>

<blockquote id="lq4e5"><p id="lq4e5"><th id="lq4e5"></th></p></blockquote>