自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="vs1gp"></sub>

<p id="vs1gp"></p>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

五款小型多模態(tài)AI模型及其功能

作者：晶顏 2024-12-09 08:15:43

隨著人們對(duì)能夠同時(shí)處理不同類(lèi)型數(shù)據(jù)（圖像、文本、音頻和視頻）的多模態(tài)人工智能系統(tǒng)的興趣日益濃厚，這些多功能工具的小型版本也隨之增加。下面，我們將介紹最近受到廣泛關(guān)注的5款小型多模態(tài)AI工具。

譯者 | 晶顏

審校 | 重樓

在過(guò)去幾年里，我們已經(jīng)見(jiàn)證了大型語(yǔ)言模型（LLM）的飛速發(fā)展，數(shù)十億個(gè)參數(shù)的基礎(chǔ)助力它們成為分析、總結(jié)和生成文本及圖像，或者創(chuàng)建聊天機(jī)器人等任務(wù)的強(qiáng)大工具。

所有這些功能都有一些明顯的限制，特別是如果用戶(hù)沒(méi)有足夠的資金或硬件來(lái)容納這些LLM所需的大量計(jì)算資源。在這種情況下，小型語(yǔ)言模型（SLM）應(yīng)運(yùn)而生，為資源受限的用戶(hù)提供了所需服務(wù)。

現(xiàn)在，隨著人們對(duì)能夠同時(shí)處理不同類(lèi)型數(shù)據(jù)（圖像、文本、音頻和視頻）的多模態(tài)人工智能系統(tǒng)的興趣日益濃厚，這些多功能工具的小型版本也隨之增加。下面，我們將介紹最近受到廣泛關(guān)注的5款小型多模態(tài)AI工具。

1. TinyGPT-V

作為一款新型的多模態(tài)AI模型，TinyGPT-V僅擁有2.8B參數(shù)，但它能夠通過(guò)獨(dú)特的量化過(guò)程，在各類(lèi)設(shè)備上實(shí)現(xiàn)高效的局部部署和推理任務(wù)，展現(xiàn)了與更大模型相匹敵的強(qiáng)大性能。

TinyGPT-V的架構(gòu)具有優(yōu)化的變壓器層，在尺寸，性能和效率之間取得平衡，此外還使用專(zhuān)門(mén)的機(jī)制來(lái)處理圖像輸入并將其與文本輸入集成。它是使用相對(duì)較小的LLM Phi-2構(gòu)建的，并與來(lái)自BLIP-2或CLIP的預(yù)訓(xùn)練視覺(jué)模塊相結(jié)合，在處理圖像描述、視覺(jué)問(wèn)答等任務(wù)上表現(xiàn)出色。

TinyGPT-V的主要賣(mài)點(diǎn)是其顯著的計(jì)算效率。相比于需要大量GPU資源的模型如LLaVA-v1.5-13B，TinyGPT-V僅需要24G GPU進(jìn)行訓(xùn)練，8G GPU或CPU即可完成推理，大幅降低了運(yùn)行成本。

TinyGPT-V非常適用于中小型企業(yè)，或者那些希望在本地部署它的教育或研究機(jī)構(gòu)，因?yàn)檫@些組織通常資金和資源都更為有限。

2. TinyLlaVA

TinyLlaVA框架主要由三部分組成：小規(guī)模LLM、視覺(jué)編碼器和連接器。其中：

小規(guī)模LLM是框架的核心，負(fù)責(zé)處理和生成文本信息。小規(guī)模LLM可以選用TinyLlama、StableLM-2、Phi-2等，它們能夠在保持較小參數(shù)規(guī)模的同時(shí)處理復(fù)雜的語(yǔ)言任務(wù)。
視覺(jué)編碼器的作用是將輸入的圖像轉(zhuǎn)換為一系列視覺(jué)特征。在TinyLLaVA框架中，主要使用CLIP和SigLIP作為視覺(jué)編碼器，這些編碼器能夠提取圖像中的關(guān)鍵視覺(jué)信息。
連接器是視覺(jué)編碼器和LLM之間的橋梁，它負(fù)責(zé)將視覺(jué)特征映射到文本嵌入空間。這樣，LLM就能夠理解和生成與視覺(jué)內(nèi)容相關(guān)聯(lián)的文本。

TinyLlaVA使用兩個(gè)不同的數(shù)據(jù)集進(jìn)行訓(xùn)練：LLaVA-1.5和ShareGPT4V。監(jiān)督微調(diào)過(guò)程允許調(diào)整LLM和視覺(jué)編碼器的部分可學(xué)習(xí)參數(shù)。

根據(jù)測(cè)試，TinyLlaVA性能最好的版本是TinyLLaVA-share-Sig-Phi 3.1B版本，優(yōu)于LLaVA-1.5和Qwen-VL等7B型號(hào)。此外，該框架還提供了對(duì)模型選擇、訓(xùn)練配方和對(duì)小規(guī)模LLM性能的數(shù)據(jù)貢獻(xiàn)的全面分析。它的存在很好地說(shuō)明了如何利用小規(guī)模LLM在可訪(fǎng)問(wèn)性和效率方面提供顯著優(yōu)勢(shì)，同時(shí)又不犧牲性能。

3. GPT-40 mini

GPT-40 mini是OpenAI最新推出的語(yǔ)言模型，專(zhuān)為那些需要強(qiáng)大語(yǔ)言處理能力但又受限于預(yù)算的開(kāi)發(fā)者設(shè)計(jì)。這個(gè)模型在多個(gè)方面表現(xiàn)優(yōu)異，不僅具備與其大規(guī)模版本相似的生成和理解能力，還在多模態(tài)推理上表現(xiàn)突出。

GPT-40 mini是由較大的GPT-40通過(guò)蒸餾過(guò)程衍生而來(lái)，在性能和成本上找到了一個(gè)理想的平衡點(diǎn)。它不僅支持文本輸入，還具備處理圖像的能力，使其在多模態(tài)應(yīng)用中具有獨(dú)特優(yōu)勢(shì)。例如，開(kāi)發(fā)者可以利用該模型進(jìn)行圖像識(shí)別、描述生成和視覺(jué)問(wèn)答等任務(wù)，顯著擴(kuò)展了模型的應(yīng)用范圍。

在安全性方面，OpenAI為GPT-40 mini實(shí)施了嚴(yán)格的安全措施，包括內(nèi)容過(guò)濾和人類(lèi)反饋強(qiáng)化學(xué)習(xí)（RLHF）。這些措施確保了模型在處理敏感信息時(shí)的可靠性和安全性，幫助開(kāi)發(fā)者構(gòu)建更安全的應(yīng)用。

4. Phi-3 Vision

這個(gè)強(qiáng)大的視覺(jué)語(yǔ)言版本是微軟Phi-3的一個(gè)基于轉(zhuǎn)換器的模型，它包含一個(gè)圖像編碼器、連接器、投影儀和Phi-3 Mini語(yǔ)言模型。在42億個(gè)參數(shù)下，Phi-3 Vision能夠支持高達(dá)128K的令牌上下文長(zhǎng)度，以及“廣泛的多模態(tài)推理”，使其能夠理解和生成基于圖表、圖形和表格的內(nèi)容。

Phi-3 Vision的性能可以與OpenAI的GPT-4V等大型模型相媲美，非常適合資源受限的環(huán)境和延遲受限的場(chǎng)景，在離線(xiàn)操作、成本和用戶(hù)隱私方面具有優(yōu)勢(shì)。

潛在的用例包括用于改善客戶(hù)支持的文檔和圖像分析，社會(huì)媒體內(nèi)容審核，以及企業(yè)或教育機(jī)構(gòu)的視頻分析。

5. Mississippi 2B和Mississippi 0.8B

H2O最近發(fā)布的Mississippi 2B和Mississippi 0.8B是專(zhuān)門(mén)為OCR和Document AI用例設(shè)計(jì)的兩款多模態(tài)基礎(chǔ)模型。這些視覺(jué)語(yǔ)言模型旨在為企業(yè)提供一種可擴(kuò)展且經(jīng)濟(jì)高效的方式來(lái)實(shí)時(shí)執(zhí)行文檔分析和圖像識(shí)別。

這些模型的特點(diǎn)是具有多層微調(diào)和最小延遲的多階段訓(xùn)練，這使它們非常適合需要處理大量文檔的醫(yī)療保健，銀行，保險(xiǎn)和金融等行業(yè)。

目前，在Hugging Face上可以免費(fèi)獲得H2OVL Mississippi 2B和H2OVL Mississippi 0.8B，這使得開(kāi)發(fā)人員、研究人員和企業(yè)都可以對(duì)其進(jìn)行微調(diào)和修改。

結(jié)語(yǔ)

可訪(fǎng)問(wèn)性和成本效率仍然是多模態(tài)模型和大型語(yǔ)言模型的主要問(wèn)題。但隨著越來(lái)越多相對(duì)輕量級(jí)但功能強(qiáng)大的多模態(tài)人工智能選項(xiàng)的出現(xiàn)，這意味著更多的機(jī)構(gòu)和小型企業(yè)有機(jī)會(huì)將人工智能應(yīng)用到自己的工作流程中。

原文標(biāo)題：5 Small-Scale Multimodal AI Models and What They Can Do，作者：Kimberley Mok

責(zé)任編輯：姜華來(lái)源： 51CTO內(nèi)容精選

大型語(yǔ)言模型 LLM 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="nmqgq"><track id="nmqgq"></track></cite>

<sub id="nmqgq"><p id="nmqgq"></p></sub>

<sub id="nmqgq"></sub>