Llama 3.2:AI視覺革新,手機(jī)也能跑大模型
Meta最新發(fā)布的Llama 3.2不僅能"看",還能在你的手機(jī)上運(yùn)行。這次更新帶來了多模態(tài)支持的Llama Vision和專為設(shè)備端優(yōu)化的"tiny"模型,共推出10個(gè)新模型,規(guī)模從1B純文本到90B多模態(tài)(文本+圖像)不等。
Llama 3.2的核心亮點(diǎn):
1.Llama 3.2 Vision:推出11B和90B兩種規(guī)模的多模態(tài)模型,支持文本+圖像輸入并生成文本輸出。這些模型基于Llama 3.1文本模型,通過6B圖像-文本對(duì)訓(xùn)練而成。
2.Llama 3.2 Edge:專為高效本地部署設(shè)計(jì)的1B和3B多語言純文本模型。
3.所有Llama 3.2模型均支持128k token的超長上下文。
4.新訓(xùn)練方法:通過知識(shí)蒸餾和剪枝技術(shù),從8B/70B模型中提煉出高效的1B/3B模型。
5.Llama Guard 3.2:兩個(gè)增強(qiáng)版安全守護(hù)模型,新增視覺支持功能。
6.性能突破:Llama 3.2 3B模型在IFEval評(píng)測中達(dá)到了Llama 3.1 8B的水平,為設(shè)備端RAG或智能代理應(yīng)用提供了強(qiáng)大支持。
Llama 3.2的發(fā)布標(biāo)志著邊緣AI和視覺技術(shù)的新紀(jì)元。此次更新引入了小型和中型視覺大語言模型(11B和90B),以及適用于移動(dòng)設(shè)備的輕量級(jí)文本模型(1B和3B)。這些模型支持高達(dá)128K的上下文長度,旨在實(shí)現(xiàn)本地處理的即時(shí)性與隱私保護(hù),滿足用戶在摘要、指令跟隨和文本重寫等任務(wù)中的需求。
在圖像理解領(lǐng)域,Llama 3.2的視覺模型表現(xiàn)出色,能夠處理文檔級(jí)理解、圖表解讀及圖像標(biāo)注等任務(wù)。通過與大語言模型的無縫對(duì)接,用戶可以直接用自然語言提問,模型將結(jié)合圖像信息提供精確的答案。此外,這些模型通過在本地運(yùn)行,保證了數(shù)據(jù)的私密性,使得應(yīng)用程序在安全性和效率上都得到了極大的提升。
Llama 3.2的架構(gòu)創(chuàng)新使其在處理圖像與文本的結(jié)合時(shí)表現(xiàn)更為出色。通過引入適配器技術(shù),模型不僅保持了文本處理的強(qiáng)大能力,還增添了對(duì)圖像的深度理解與推理能力。Meta還與多家合作伙伴共同開發(fā)了Llama Stack分發(fā)版,簡化了開發(fā)者在不同環(huán)境下的使用流程,推動(dòng)了生成式AI的可用性與創(chuàng)新性。
總之,Llama 3.2不僅增強(qiáng)了邊緣設(shè)備的AI能力,還為開發(fā)者提供了豐富的自定義選項(xiàng)。隨著開放性與可修改性的持續(xù)推進(jìn),Llama 3.2將推動(dòng)更多創(chuàng)造性和實(shí)用性的突破,改變我們與AI互動(dòng)的方式。
鏈接:???https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/??
