Meta開源多模態(tài)模型——Llama 3.2
Meta開源了首個(gè)多模態(tài)大模型Llama-3.2,這是Llama-3系列的一次重大升級(jí),一共有4個(gè)版本。
Llama 3.2 1B、3B是整個(gè)系列最輕量級(jí)的模型,適合邊緣設(shè)備和移動(dòng)應(yīng)用程序的檢索和摘要,可用于個(gè)人信息管理和多語(yǔ)言知識(shí)檢索等,支持 128k標(biāo)記的上下文長(zhǎng)度,可在手機(jī)、平板電腦等設(shè)備中使用。
值得一提的是,這兩款模型在發(fā)布時(shí)便對(duì)高通和聯(lián)發(fā)科的硬件進(jìn)行了適配,并針對(duì) Arm 處理器進(jìn)行了優(yōu)化,廣泛的兼容性將加速其在各種移動(dòng)和物聯(lián)網(wǎng)設(shè)備中的應(yīng)用。
開源地址:https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama32
11B和90B視覺(jué)模型是 Llama首次發(fā)布的多模態(tài)大模型,能理解和推理圖像,實(shí)現(xiàn)文檔分析、圖像字幕和視覺(jué)問(wèn)答等任務(wù)。
Llama 3.2 90B版本擅長(zhǎng)常識(shí)、長(zhǎng)文本生成、多語(yǔ)言翻譯、編碼、數(shù)學(xué)和高級(jí)推理等,還引入了圖像推理功能,可完成圖像理解和視覺(jué)推理任務(wù),能進(jìn)行圖像標(biāo)題生成、圖像文本檢索、視覺(jué)基礎(chǔ)、視覺(jué)問(wèn)題解答和視覺(jué)推理,以及文檔視覺(jué)問(wèn)題解答等。
Llama 3.2 11B版本適合內(nèi)容創(chuàng)建、對(duì)話式人工智能、語(yǔ)言理解和需要視覺(jué)推理的企業(yè)應(yīng)用。在文本摘要、情感分析、代碼生成和執(zhí)行指令方面表現(xiàn)出色,也增加了圖像推理能力,其用例與 90B 版本類似,包括圖像標(biāo)題生成、圖像文本檢索、視覺(jué)基礎(chǔ)、視覺(jué)問(wèn)題解答和視覺(jué)推理,以及文檔視覺(jué)問(wèn)題解答等。
根據(jù)測(cè)試數(shù)據(jù)顯示,Llama 3.2模型在圖像識(shí)別和視覺(jué)理解基準(zhǔn)測(cè)試中與領(lǐng)先的閉源模型具有競(jìng)爭(zhēng)力,例如,Claude 3 haiku等。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
