自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生! 原創(chuàng) 精華

發(fā)布于 2024-11-19 15:47
瀏覽
0收藏

最近在HuggingFace上有一個開源多模態(tài)模型引起了廣泛關(guān)注:Omnivision-968M。這款模型以其不到1B參數(shù)量的小巧體積(僅968M參數(shù)量)脫穎而出,成為目前市場上最小的視覺語言模型之一。

Blog: ???https://nexa.ai/blogs/omni-vision???

Model: https://huggingface.co/NexaAIDev/omnivision-968M

Omnivision-968M

?? Omnivision-968M是由Nexa AI這家創(chuàng)業(yè)公司推出(與國內(nèi)做CMOS聞名的同名半導(dǎo)體企業(yè)Omnivision無關(guān))。Nexa AI的愿景是打造先進的端側(cè)AI模型,讓AI技術(shù)不再局限于云端,而是能夠直接在本地設(shè)備上運行。這不僅意味著成本的降低,更重要的是,它能夠更好地保護用戶的隱私安全。

??Omnivision-968M由于體積較小,所以模型在推理速度上,有著非常不錯的表現(xiàn)。在Apple最新M4 Pro處理器的MacBook上,它能夠以不到2秒的驚人速度,生成一張1046×1568像素圖像的語言描述。它在處理過程中僅占用988MB的統(tǒng)一內(nèi)存空間。

??Omnivision在LLaVA架構(gòu)的基礎(chǔ)上進行了改進,帶來了以下兩大改進:【9倍Token縮減】:Omnivision將圖像Token從729減少到81,這一改進大幅降低了延遲和計算成本,讓模型運行更加高效?!靖倩糜X】:通過使用來自可信數(shù)據(jù)的DPO訓(xùn)練,Omnivision減少了幻覺現(xiàn)象,提高了結(jié)果的可靠性。

模型結(jié)構(gòu)

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

OmniVision的架構(gòu)由以下三個關(guān)鍵組件構(gòu)成:

基礎(chǔ)語言模型:Qwen2.5-0.5B-Instruct作為基礎(chǔ)語言模型,用于自回歸輸出文本。這款強大的語言模型為OmniVision提供了強大的文本處理能力。

視覺編碼器:SigLIP-400M,分辨率384,以14×14的patch大小生成圖像embedding。這一組件負責(zé)將輸入的圖像轉(zhuǎn)換成embedding。

投影層:MLP將視覺編碼器的嵌入與語言模型的Token空間對齊。與標準的LLaVA架構(gòu)相比,能夠?qū)D像Token數(shù)目減少9倍。

視覺編碼器首先將輸入的圖像轉(zhuǎn)換成嵌入,然后這些嵌入通過投影層處理,以匹配Qwen2.5-0.5B-Instruct的Token空間,從而實現(xiàn)端到端的視覺-語言理解。

訓(xùn)練方法

預(yù)訓(xùn)練階段:OmniVision的訓(xùn)練始于預(yù)訓(xùn)練階段,這一階段的核心任務(wù)是建立基本的視覺-語言對齊。我們使用圖像-文本描述對來進行訓(xùn)練,僅解凍MLP投影層參數(shù),以便學(xué)習(xí)圖像文本Token空間映射關(guān)系。

SFT:在預(yù)訓(xùn)練的基礎(chǔ)上,通過圖像問答數(shù)據(jù)集來增強模型的上下文理解能力。在SFT階段,模型會在包含圖像的結(jié)構(gòu)化聊天記錄上進行訓(xùn)練,以生成更符合上下文的響應(yīng)。

DPO:訓(xùn)練流程的最后階段是直接偏好優(yōu)化(DPO)。首先,基礎(chǔ)模型會針對圖像生成響應(yīng)。然后,教師模型會產(chǎn)生最小編輯的修正,同時保持與原始響應(yīng)的高語義相似性,特別關(guān)注準確性至關(guān)重要的元素。這些原始和修正后的輸出形成選擇-拒絕對(chosen-rejected pair)。微調(diào)的目標是在不改變模型核心響應(yīng)特征的情況下,針對模型輸出進行必要的改進。糾正預(yù)測分布,減少模型幻覺。

特色方法

上述模型結(jié)構(gòu)和訓(xùn)練方法和主流方法比沒有太多特殊之處,Omnivision除了模型參數(shù)量小之外,還應(yīng)用了這些方法:

9x圖像Token壓縮: 在邊緣設(shè)備部署多模態(tài)模型時,處理太大的圖像Token數(shù)目會產(chǎn)生顯著的計算開銷,因為計算復(fù)雜度為O(N**2)的序列長度。標準LLaVA架構(gòu)中,每張圖像生成729個Token(27x27),導(dǎo)致高延遲和高計算成本。OmniVision使用了和InternVL類似的方法,在投影階段使用pixel unshuffle機制,將圖像嵌入從[batch_size, 729, hidden_size]轉(zhuǎn)換為[batch_size, 81, hidden_size*9],這樣減少了9倍的Token數(shù)量,但保持信息量沒有被減少,只是挪動到了通道上,不犧牲模型性能。實驗表明,這種壓縮方法極大地提高了模型推理速度。分析表明,這種改進源于基礎(chǔ)Qwen模型對較短序列的處理能力,其中壓縮格式提供了更集中的信息表示。

最小編輯DPO: 傳統(tǒng)的DPO方法可能導(dǎo)致模型行為的顯著變化。OmniVision的DPO實現(xiàn)使用最小編輯對進行訓(xùn)練。教師模型在保持原始結(jié)構(gòu)的同時,對基礎(chǔ)模型的輸出進行小的、有針對性的改進。這種方法確保了精確的質(zhì)量改進,而不破壞模型的核心能力。

性能評測

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

在所有任務(wù)中,OmniVision的表現(xiàn)都優(yōu)于之前世界上最小的視覺語言模型nanoLLAVA。但略遜于Qwen2-VL-2B

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

(OmniVision生成圖像描述)

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

(OmniVision可以尋找圖像中出現(xiàn)的目標)

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

(OmniVision分析食物圖像并生成食譜)

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

(OmniVision確定了正確的HDMI端口位置)


本文轉(zhuǎn)載自公眾號思源數(shù)據(jù)科學(xué) 作者:思源Source

原文鏈接:??https://mp.weixin.qq.com/s/IclLU-FQd2X6zRZgg4zVtg??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦