Llama 3.2 強勢震撼登場:從 1B 純文本躍至 90B 多模態(tài),成就端側(cè) AI 巔峰杰作 原創(chuàng)
在當(dāng)今科技飛速發(fā)展的時代,人工智能技術(shù)正以驚人的速度不斷演進,為我們的生活和工作帶來了翻天覆地的變化。Meta 公司作為科技領(lǐng)域的巨頭之一,一直致力于推動人工智能的發(fā)展。2024 年 9 月 25 日,Meta 公司重磅推出了 Llama 3.2。 引起了廣泛關(guān)注,它究竟有哪些令人矚目的特點和創(chuàng)新呢?讓我們一同深入探索。
一、Llama 3.2簡介
Llama 3.2 是 Meta 公司開發(fā)的一款強大的人工智能模型。它在之前版本的基礎(chǔ)上進行了優(yōu)化和升級,擁有更加出色的性能和廣泛的適用性。Llama 3.2 包括了不同參數(shù)規(guī)格的視覺模型和輕量級純文本模型,為各種應(yīng)用場景提供了靈活的選擇。
二、Llama 3.2功能特點
1. 強大的視覺處理能力
Llama 3.2 擁有 90b 和 11b 兩種參數(shù)規(guī)格的視覺模型,在圖像理解任務(wù)上表現(xiàn)卓越。它可以完成圖像理解、視覺推理、圖像標(biāo)題、圖像文本檢索、文檔視覺問題解答等多種任務(wù)。在相關(guān)的基準(zhǔn)評分中,Llama 3.2 的視覺模型高于包括 Claude 3 Haiku 和 GPT-4 Omini 在內(nèi)的封閉模型,展現(xiàn)出了強大的競爭力。
例如,在圖像理解任務(wù)中,Llama 3.2 可以準(zhǔn)確地識別圖像中的物體、場景和動作,并給出詳細的描述。在視覺推理任務(wù)中,它能夠根據(jù)圖像中的信息進行邏輯推理,回答各種復(fù)雜的問題。這種強大的視覺處理能力為圖像相關(guān)的應(yīng)用提供了有力的支持。
2. 輕量級純文本模型
除了視覺模型,Llama 3.2 還包括能在設(shè)備端本地運行的 1b 和 3b 輕量級純文本模型。這些模型支持 128k tokens 上下文,適配高通和聯(lián)發(fā)科硬件,并針對 ARM 處理器做了優(yōu)化。這意味著開發(fā)者可以在資源受限的設(shè)備上運行這些模型,為移動應(yīng)用等場景提供了強大的人工智能支持。
輕量級純文本模型具有多語言文本生成和工具調(diào)用能力,可用于移動人工智能寫作助手和客戶服務(wù)應(yīng)用等場景。在保證數(shù)據(jù)隱私的同時,為用戶提供個性化的服務(wù)。
三、Llama 3.2模型評估
Meta 公司發(fā)布了 Llama 3.2 視覺模型的部分評估數(shù)據(jù)。具體如下:
1. 文本相關(guān)任務(wù)方面
對于輕量級的 Llama 3.2 3b 模型,在指令遵從、總結(jié)、提示詞重寫、工具使用等任務(wù)上的表現(xiàn)優(yōu)于 Gemma 22.6b 和 Phi 3.5-mini;而 1b 的表現(xiàn)與 Gemma 相當(dāng)。這說明 Llama 3.2 的輕量級模型在文本處理的一些常見任務(wù)上也具有較好的性能,能夠滿足一定的應(yīng)用需求。
2. 圖像理解任務(wù)方面
在涉及多種語言的 150 多個基準(zhǔn)數(shù)據(jù)集上進行了評估。其視覺模型在圖像識別等一系列視覺理解任務(wù)上足以比肩業(yè)界領(lǐng)先的基礎(chǔ)模型 Claude 3 Haiku 和 GPT-4 Omini。這意味著 Llama 3.2 在圖像理解的準(zhǔn)確性、對不同圖像場景和內(nèi)容的識別能力等方面達到了較高的水平,能夠與這些知名模型相媲美。
這些只是 Meta 公司公布的部分性能測試結(jié)果,隨著更多開發(fā)者和研究機構(gòu)對 Llama 3.2 的使用和測試,可能會有更全面、深入的性能分析和評估結(jié)果出現(xiàn)。如果你想了解更詳細的性能測試信息,可以關(guān)注 Meta 公司的官方發(fā)布或相關(guān)的技術(shù)論壇、研究報告等。
四、本地部署體驗
1. 安裝依賴
需確保安裝的 transformers 版本不低于 4.43.0。
pip install transformers
pip install 'accelerate>=0.26.0'
pip install modelscope
2. 模型下載
使用 modelscope 中的 snapshot_download 函數(shù)下載模型(提前安裝modelscope :pip install modelscope)。第一個參數(shù)為模型名稱,參數(shù) cache_dir 用于指定模型的下載路徑。
#模型下載
from modelscope import snapshot_download
model_dir = snapshot_download('llm-research/llama-3.2-1b', cache_dir='/root/autodl-tmp', revisinotallow='master')
下載完成如下:
模型下載完成后,可在/root/autodl-tmp/llm-research/llama-3___2-1b目錄下查看模型文件
注意檢查對比文件數(shù)量和大小,確認文件下載是否完整。
3. 模型推理
以下是使用 Python 進行模型推理的代碼示例。
import torch
from transformers import pipeline
model_id = "/root/autodl-tmp/llm-research/llama-3___2-1b"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("The key to life is")
輸出:
[{'generated_text': 'The key to life is to be happy. The key to happiness is to be kind. The'}]
GPU資源消耗如下:
圖片
結(jié)語
Llama 3.2 的推出標(biāo)志著 Meta 在人工智能領(lǐng)域又邁出了堅實的一步。它強大的功能特點和廣泛的應(yīng)用場景,為我們展示了人工智能的無限潛力。隨著技術(shù)的不斷進步,我們相信 Llama 3.2 將在未來的日子里為我們的生活和工作帶來更多的驚喜和便利。讓我們拭目以待,共同見證人工智能的輝煌未來。同時,我們也期待著更多的科技公司能夠推出更加先進的人工智能技術(shù),共同推動人工智能行業(yè)的發(fā)展。
相關(guān)資料
- 官網(wǎng)地址:??https://www.llama.com/??
- 模型地址:??https://huggingface.co/meta-llama/Llama-3.2-1B??
- Github地址:???https://github.com/meta-llama/llama-models/tree/main/models/llama3_2??
本文轉(zhuǎn)載自 ??小兵的AI視界??,作者: 小兵
