自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="8vvrc"></p>

<i id="8vvrc"><strong id="8vvrc"></strong></i>

<rt id="8vvrc"></rt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Omnivision-968M：最小多模態(tài)模型，為邊緣設(shè)備而生！原創(chuàng) 精華

發(fā)布于 2024-11-19 15:47

瀏覽

0收藏

最近在HuggingFace上有一個開源多模態(tài)模型引起了廣泛關(guān)注：Omnivision-968M。這款模型以其不到1B參數(shù)量的小巧體積（僅968M參數(shù)量）脫穎而出，成為目前市場上最小的視覺語言模型之一。

Blog: ???https://nexa.ai/blogs/omni-vision???

Model: https://huggingface.co/NexaAIDev/omnivision-968M

Omnivision-968M

?? Omnivision-968M是由Nexa AI這家創(chuàng)業(yè)公司推出（與國內(nèi)做CMOS聞名的同名半導(dǎo)體企業(yè)Omnivision無關(guān)）。Nexa AI的愿景是打造先進的端側(cè)AI模型，讓AI技術(shù)不再局限于云端，而是能夠直接在本地設(shè)備上運行。這不僅意味著成本的降低，更重要的是，它能夠更好地保護用戶的隱私安全。

??Omnivision-968M由于體積較小，所以模型在推理速度上，有著非常不錯的表現(xiàn)。在Apple最新M4 Pro處理器的MacBook上，它能夠以不到2秒的驚人速度，生成一張1046×1568像素圖像的語言描述。它在處理過程中僅占用988MB的統(tǒng)一內(nèi)存空間。

??Omnivision在LLaVA架構(gòu)的基礎(chǔ)上進行了改進，帶來了以下兩大改進：【9倍Token縮減】：Omnivision將圖像Token從729減少到81，這一改進大幅降低了延遲和計算成本，讓模型運行更加高效?！靖倩糜X】：通過使用來自可信數(shù)據(jù)的DPO訓(xùn)練，Omnivision減少了幻覺現(xiàn)象，提高了結(jié)果的可靠性。

模型結(jié)構(gòu)

Omnivision-968M：最小多模態(tài)模型，為邊緣設(shè)備而生！-AI.x社區(qū)

OmniVision的架構(gòu)由以下三個關(guān)鍵組件構(gòu)成：

基礎(chǔ)語言模型：Qwen2.5-0.5B-Instruct作為基礎(chǔ)語言模型，用于自回歸輸出文本。這款強大的語言模型為OmniVision提供了強大的文本處理能力。

視覺編碼器：SigLIP-400M，分辨率384，以14×14的patch大小生成圖像embedding。這一組件負責(zé)將輸入的圖像轉(zhuǎn)換成embedding。

投影層：MLP將視覺編碼器的嵌入與語言模型的Token空間對齊。與標準的LLaVA架構(gòu)相比，能夠?qū)D像Token數(shù)目減少9倍。

視覺編碼器首先將輸入的圖像轉(zhuǎn)換成嵌入，然后這些嵌入通過投影層處理，以匹配Qwen2.5-0.5B-Instruct的Token空間，從而實現(xiàn)端到端的視覺-語言理解。

訓(xùn)練方法

預(yù)訓(xùn)練階段：OmniVision的訓(xùn)練始于預(yù)訓(xùn)練階段，這一階段的核心任務(wù)是建立基本的視覺-語言對齊。我們使用圖像-文本描述對來進行訓(xùn)練，僅解凍MLP投影層參數(shù)，以便學(xué)習(xí)圖像文本Token空間映射關(guān)系。

SFT：在預(yù)訓(xùn)練的基礎(chǔ)上，通過圖像問答數(shù)據(jù)集來增強模型的上下文理解能力。在SFT階段，模型會在包含圖像的結(jié)構(gòu)化聊天記錄上進行訓(xùn)練，以生成更符合上下文的響應(yīng)。

DPO：訓(xùn)練流程的最后階段是直接偏好優(yōu)化（DPO）。首先，基礎(chǔ)模型會針對圖像生成響應(yīng)。然后，教師模型會產(chǎn)生最小編輯的修正，同時保持與原始響應(yīng)的高語義相似性，特別關(guān)注準確性至關(guān)重要的元素。這些原始和修正后的輸出形成選擇-拒絕對（chosen-rejected pair）。微調(diào)的目標是在不改變模型核心響應(yīng)特征的情況下，針對模型輸出進行必要的改進。糾正預(yù)測分布，減少模型幻覺。

特色方法

上述模型結(jié)構(gòu)和訓(xùn)練方法和主流方法比沒有太多特殊之處，Omnivision除了模型參數(shù)量小之外，還應(yīng)用了這些方法：

9x圖像Token壓縮： 在邊緣設(shè)備部署多模態(tài)模型時，處理太大的圖像Token數(shù)目會產(chǎn)生顯著的計算開銷，因為計算復(fù)雜度為O（N**2）的序列長度。標準LLaVA架構(gòu)中，每張圖像生成729個Token（27x27），導(dǎo)致高延遲和高計算成本。OmniVision使用了和InternVL類似的方法，在投影階段使用pixel unshuffle機制，將圖像嵌入從[batch_size, 729, hidden_size]轉(zhuǎn)換為[batch_size, 81, hidden_size*9]，這樣減少了9倍的Token數(shù)量，但保持信息量沒有被減少，只是挪動到了通道上，不犧牲模型性能。實驗表明，這種壓縮方法極大地提高了模型推理速度。分析表明，這種改進源于基礎(chǔ)Qwen模型對較短序列的處理能力，其中壓縮格式提供了更集中的信息表示。

最小編輯DPO： 傳統(tǒng)的DPO方法可能導(dǎo)致模型行為的顯著變化。OmniVision的DPO實現(xiàn)使用最小編輯對進行訓(xùn)練。教師模型在保持原始結(jié)構(gòu)的同時，對基礎(chǔ)模型的輸出進行小的、有針對性的改進。這種方法確保了精確的質(zhì)量改進，而不破壞模型的核心能力。

性能評測

Omnivision-968M：最小多模態(tài)模型，為邊緣設(shè)備而生！-AI.x社區(qū)

Omnivision-968M：最小多模態(tài)模型，為邊緣設(shè)備而生！-AI.x社區(qū)

在所有任務(wù)中，OmniVision的表現(xiàn)都優(yōu)于之前世界上最小的視覺語言模型nanoLLAVA。但略遜于Qwen2-VL-2B

Omnivision-968M：最小多模態(tài)模型，為邊緣設(shè)備而生！-AI.x社區(qū)

（OmniVision生成圖像描述）

Omnivision-968M：最小多模態(tài)模型，為邊緣設(shè)備而生！-AI.x社區(qū)

（OmniVision可以尋找圖像中出現(xiàn)的目標）

Omnivision-968M：最小多模態(tài)模型，為邊緣設(shè)備而生！-AI.x社區(qū)

（OmniVision分析食物圖像并生成食譜）

Omnivision-968M：最小多模態(tài)模型，為邊緣設(shè)備而生！-AI.x社區(qū)

（OmniVision確定了正確的HDMI端口位置）

本文轉(zhuǎn)載自公眾號思源數(shù)據(jù)科學(xué) 作者：思源Source

原文鏈接：??https://mp.weixin.qq.com/s/IclLU-FQd2X6zRZgg4zVtg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

多模態(tài)模型

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

大模型“分區(qū)”部署在云和邊緣更合適？

51CTO技術(shù)棧 ? 2301瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時代 ? 4439瀏覽 ? 0回復(fù)
多模態(tài)與偽多模態(tài)大模型

AI探索時代 ? 2159瀏覽 ? 0回復(fù)
多模態(tài)大模型中，多模態(tài)融合后怎樣知道最終結(jié)果受哪種模態(tài)影響更大？

shizhi02 ? 1888瀏覽 ? 0回復(fù)
多模態(tài)大模型：基礎(chǔ)架構(gòu)

魯班模錘1 ? 2103瀏覽 ? 0回復(fù)
最小化的遞歸神經(jīng)網(wǎng)絡(luò)RNN為Transformer提供了快速高效的替代方案

51CTO內(nèi)容精選 ? 2039瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型

AI探索時代 ? 2727瀏覽 ? 0回復(fù)
【多模態(tài)&RAG】多模態(tài)RAG ColPali實踐

大模型自然語言處理 ? 2001瀏覽 ? 0回復(fù)
Jina CLIP v2：為多模態(tài)RAG設(shè)計的向量模型

kede96 ? 2986瀏覽 ? 0回復(fù)
Moonshine 語音模型：資源受限設(shè)備的語音識別超強 “芯” 動力！

穿越時空111 ? 1978瀏覽 ? 0回復(fù)
M3DocRAG：文檔問答用哪個多模態(tài)大模型效果最好？

大語言模型論文跟蹤 ? 2463瀏覽 ? 0回復(fù)
多模態(tài)RAG構(gòu)建指南：為AI系統(tǒng)提供更多可能性

51CTO內(nèi)容精選 ? 2009瀏覽 ? 0回復(fù)
15M數(shù)據(jù)實現(xiàn)顛覆性統(tǒng)一多模態(tài)大模型！華為諾亞提出ILLUME

angel ? 2656瀏覽 ? 0回復(fù)
Infinigence AI 發(fā)布 Megrez-3B-Omni：3B 設(shè)備上開源多模態(tài)大語言模型 MLLM

Halo咯咯 ? 1841瀏覽 ? 0回復(fù)
來認識一下 Ivy-VL：一種僅包含 30 億個邊緣設(shè)備參數(shù)的輕量級多模態(tài)模型

Halo咯咯 ? 2286瀏覽 ? 0回復(fù)
微軟人工智能研究院推出 OLA-VLM：一種以視覺為中心的優(yōu)化多模態(tài)大型語言模型的方法

Halo咯咯 ? 2323瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎勵模型；將獎勵模型多模態(tài)情緒識別上

AI研究前瞻 ? 1629瀏覽 ? 0回復(fù)
讓哪吒用上DeepSeek，讓OpenVINO加速邊緣計算

Wordsworth_Jin ? 450瀏覽 ? 0回復(fù)
2025年最值得關(guān)注的十大多模態(tài)大語言模型！

Halo咯咯 ? 1672瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Jina CLIP v2：為多模態(tài)RAG設(shè)計的向量模型 2024-11-27 14:50:27發(fā)布
解密o1推理過程！DeepSeek-R1-Lite預(yù)覽版上線 2024-11-27 14:48:58發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： YOLO11問世！重新定義AI的可能性！

下一篇： Pixtral Large：124B的最強開源多模態(tài)大模型

社區(qū)精華內(nèi)容

目錄

<cite id="la1m8"></cite>