自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="jpdel"><rt id="jpdel"></rt></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

本地構(gòu)建Llama 3.2-Vision多模態(tài)LLM聊天應(yīng)用實(shí)戰(zhàn) 原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-12-17 07:52

瀏覽

0收藏

本文將以實(shí)戰(zhàn)案例探討如何在類似聊天的模式下從本地構(gòu)建Llama3.2-Vision模型，并在Colab筆記本上探索其多模態(tài)技能。

本地構(gòu)建Llama 3.2-Vision多模態(tài)LLM聊天應(yīng)用實(shí)戰(zhàn)-AI.x社區(qū)

簡介

視覺功能與大型語言模型（LLM）的集成正在通過多模態(tài)LLM（MLLM）徹底改變計算機(jī)視覺領(lǐng)域。這些模型結(jié)合了文本和視覺輸入，在圖像理解和推理方面表現(xiàn)出令人印象深刻的能力。雖然這些模型以前只能通過API訪問，但是最近發(fā)布的一些開源項(xiàng)目已經(jīng)支持在本地執(zhí)行，這使得它們對生產(chǎn)環(huán)境中一線應(yīng)用更具吸引力。

在本文中，我們將學(xué)習(xí)如何使用開源Llama3.2-Vision模型與我們提供的圖像聊天，其間你會驚嘆于該模型的OCR、圖像理解和推理能力。示例工程的所有代碼都將方便地提供在一個Colab筆記本文件中。

Llama 3.2-Vision模型

背景

Llama是“大型語言模型MetaAI”的縮寫，是Meta公司開發(fā)的一系列高級大語言模型。他們的產(chǎn)品Llama 3.2推出了先進(jìn)的視覺功能。視覺變體有兩種大?。?1B和90B參數(shù)，可在邊緣設(shè)備上進(jìn)行推理。Llama 3.2具有高達(dá)128k個標(biāo)記的上下文窗口，支持高達(dá)1120x1120像素的高分辨率圖像，可以處理復(fù)雜的視覺和文本信息。

架構(gòu)

Llama系列模型是僅使用解碼器的轉(zhuǎn)換器。Llama3.2-Vision模型建立在預(yù)訓(xùn)練的Llama 3.1純文本模型之上。它采用標(biāo)準(zhǔn)的密集自回歸轉(zhuǎn)換器架構(gòu)，與其前身Llama和Llama 2并無太大差異。

為了支持視覺任務(wù)，Llama 3.2使用預(yù)訓(xùn)練的視覺編碼器（ViT-H/14）提取圖像表示向量，并使用視覺適配器將這些表示集成到凍結(jié)語言模型中。適配器由一系列交叉注意層組成，允許模型專注于與正在處理的文本相對應(yīng)的圖像的特定部分（參考文獻(xiàn)【1】）。

適配器基于“文本-圖像”對進(jìn)行訓(xùn)練，以使圖像表示與語言表示對齊。在適配器訓(xùn)練期間，圖像編碼器的參數(shù)會更新，而語言模型參數(shù)保持凍結(jié)以保留現(xiàn)有的語言能力。

本地構(gòu)建Llama 3.2-Vision多模態(tài)LLM聊天應(yīng)用實(shí)戰(zhàn)-AI.x社區(qū)

Llama 3.2-Vision模型架構(gòu)：視覺模塊（綠色）集成到固定語言模型（粉紅色）中

這種設(shè)計使Llama 3.2在多模態(tài)任務(wù)中表現(xiàn)出色，同時保持其強(qiáng)大的純文本性能。生成的模型在需要圖像和語言理解的任務(wù)中展示了令人印象深刻的能力，并允許用戶與他們的視覺輸入進(jìn)行交互式交流。

編碼實(shí)戰(zhàn)

有了對Llama 3.2架構(gòu)的基本了解后，讓我們深入研究其實(shí)際實(shí)現(xiàn)。但首先，我們需要做一些準(zhǔn)備工作。

準(zhǔn)備

在Google Colab上運(yùn)行Llama3.2—Vision11B之前，我們需要做一些準(zhǔn)備：

1.GPU設(shè)置

建議使用至少具有22GB VRAM的高端GPU進(jìn)行高效推理（參考文獻(xiàn)【2】）。
對于Google Colab用戶來說：需要導(dǎo)航至“運(yùn)行時”>“更改運(yùn)行時類型”>“A100 GPU”。請注意，高端GPU可能不適用于免費(fèi)的Colab用戶。

2. 模型權(quán)限

請求訪問Llama 3.2模型在鏈接https://www.llama.com/llama-downloads/處提供。

3.HuggingFace設(shè)置

如果你還沒有Hugging Face賬戶，請在鏈接??https://huggingface.co/join處創(chuàng)建一個。??

如果你沒有Hugging Face賬戶，請在鏈接https://huggingface.co/join處生成訪問令牌。

對于Google Colab用戶，請在谷歌Colab Secrets中將Hugging Face令牌設(shè)置為名為“HF_TOKEN”的秘密環(huán)境變量。

4.安裝所需的庫

加載模型

設(shè)置環(huán)境并獲得必要的權(quán)限后，我們將使用Hugging Face轉(zhuǎn)換庫來實(shí)例化模型及其相關(guān)的處理器。處理器負(fù)責(zé)為模型準(zhǔn)備輸入并格式化其輸出。

model_id = "meta-llama/Llama-3.2-11B-Vision-Instruct"

model = MllamaForConditionalGeneration.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto")

processor = AutoProcessor.from_pretrained(model_id)

預(yù)期的聊天模板

聊天模板通過存儲“用戶”（我們）和“助手”（AI模型）之間的交流，通過對話歷史記錄來維護(hù)上下文。對話歷史記錄的結(jié)構(gòu)為一個稱為消息的字典列表，其中每個字典代表一個對話輪次，包括用戶和模型響應(yīng)。用戶輪次可以包括圖像文本或純文本輸入，其中{"type": "image"}表示圖像輸入。

例如，經(jīng)過幾次聊天迭代后，消息列表可能如下所示：

messages = [
{"role": "user",      "content": [{"type": "image"}, {"type": "text", "text": prompt1}]},
{"role": "assistant", "content": [{"type": "text", "text": generated_texts1}]},
{"role": "user",      "content": [{"type": "text", "text": prompt2}]},
{"role": "assistant", "content": [{"type": "text", "text": generated_texts2}]},
{"role": "user",      "content": [{"type": "text", "text": prompt3}]},
{"role": "assistant", "content": [{"type": "text", "text": generated_texts3}]}
]

此消息列表隨后會傳遞給apply_chat_template()方法，以便將對話轉(zhuǎn)換為模型期望格式的單個可標(biāo)記字符串。

主函數(shù)

在本教程中，我提供了一個chat_with_mllm函數(shù)，該函數(shù)可實(shí)現(xiàn)與Llama 3.2 MLLM的動態(tài)對話。此函數(shù)能夠處理圖像加載、預(yù)處理圖像和文本輸入、生成模型響應(yīng)并管理對話歷史記錄以啟用聊天模式交互。

def chat_with_mllm (model, processor, prompt, images_path=[],do_sample=False, temperature=0.1, show_image=False, max_new_tokens=512, messages=[], images=[]):

# 確保列表形式：
if not isinstance(images_path, list):
images_path =  [images_path]

#加載圖像
if len (images)==0 and len (images_path)>0:
for image_path in tqdm (images_path):
image = load_image(image_path)
images.append (image)
if show_image:
display ( image )

#如果開始了一個關(guān)于一個圖像的新的對話
if len (messages)==0:
messages = [{"role": "user", "content": [{"type": "image"}, {"type": "text", "text": prompt}]}]

# 如果繼續(xù)對圖像進(jìn)行對話
else:
messages.append ({"role": "user", "content": [{"type": "text", "text": prompt}]})

# 處理輸入數(shù)據(jù)
text = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(images=images, text=text, return_tensors="pt", ).to(model.device)

    生成相應(yīng)
generation_args = {"max_new_tokens": max_new_tokens, "do_sample": True}
if do_sample:
generation_args["temperature"] = temperature
generate_ids = model.generate(**inputs,**generation_args)
generate_ids = generate_ids[:, inputs['input_ids'].shape[1]:-1]
generated_texts = processor.decode(generate_ids[0], clean_up_tokenization_spaces=False)

# 附加該模型對對話歷史記錄的響應(yīng)
messages.append ({"role": "assistant", "content": [  {"type": "text", "text": generated_texts}]})

return generated_texts, messages, images

與Llama聊天

蝴蝶圖像示例

在我們的第一個示例中，我們將與Llama3.2進(jìn)行聊天，討論一張孵化蝴蝶的圖像。由于Llama3.2-Vision在使用圖像時不支持使用系統(tǒng)提示進(jìn)行提示，因此我們將直接在用戶提示中附加說明，以指導(dǎo)模型的響應(yīng)。通過設(shè)置do_sample=True和temperature=0.2，我們可以在保持響應(yīng)一致性的同時實(shí)現(xiàn)輕微的隨機(jī)性。對于固定答案，你可以設(shè)置do_sample==False。保存聊天歷史記錄的messages參數(shù)最初為空，如images參數(shù)中所示：

instructions = "Respond concisely in one sentence."
prompt = instructions + "Describe the image."

response, messages,images= chat_with_mllm ( model, processor, prompt,
images_path=[img_path],
do_sample=True,
temperature=0.2,
show_image=True,
messages=[],
images=[])

# 輸出："The image depicts a butterfly emerging from its chrysalis, 
#           with a row of chrysalises hanging from a branch above it."

本地構(gòu)建Llama 3.2-Vision多模態(tài)LLM聊天應(yīng)用實(shí)戰(zhàn)-AI.x社區(qū)

圖片來自Pixabay（https://www.pexels.com/photo/brown-and-white-swallowtail-butterfly-under-white-green-and-brown-cocoon-in-shallow-focus-lens-63643/）。

我們可以看到，輸出準(zhǔn)確而簡潔，表明模型有效地理解了圖像。

對于下一次聊天迭代，我們將傳遞一個新提示以及聊天歷史記錄和圖像文件。新提示旨在評估Llama3.2的推理能力：

prompt = instructions + "What would happen to the chrysalis in the near future?"
response, messages, images= chat_with_mllm ( model, processor, prompt,
images_path=[img_path,],
do_sample=True,
temperature=0.2,
show_image=False,
messages=messages,
images=images)

# 輸出: "The chrysalis will eventually hatch into a butterfly."

我們在提供的Colab筆記本中繼續(xù)此聊天，并得到了以下對話：

本地構(gòu)建Llama 3.2-Vision多模態(tài)LLM聊天應(yīng)用實(shí)戰(zhàn)-AI.x社區(qū)

對話通過準(zhǔn)確描述場景，突出了模型的圖像理解能力。它還展示了它的推理能力，通過邏輯地連接信息來正確推斷蛹會發(fā)生什么，并解釋為什么有些蛹是棕色的，而有些蛹是綠色的。

模因圖像示例

在這個例子中，我將向模型展示我自己創(chuàng)建的模因，以評估Llama的OCR能力并確定它是否理解我的幽默感。

instructions = "You are a computer vision engineer with sense of humor."
prompt = instructions + "Can you explain this meme to me?"


response, messages,images= chat_with_mllm ( model, processor, prompt,
images_path=[img_path,],
do_sample=True,
temperature=0.5,
show_image=True,
messages=[],
images=[])

這是輸入模因：

本地構(gòu)建Llama 3.2-Vision多模態(tài)LLM聊天應(yīng)用實(shí)戰(zhàn)-AI.x社區(qū)

作者制作的表情包。原始熊圖像由??Hans-Jurgen Mager??制作。

這是模型的回應(yīng)：

本地構(gòu)建Llama 3.2-Vision多模態(tài)LLM聊天應(yīng)用實(shí)戰(zhàn)-AI.x社區(qū)

我們可以看到，該模型展示了出色的OCR能力，并理解了圖像中文本的含義。至于它的幽默感——你覺得怎么樣，它明白了嗎？你明白了嗎？也許我也應(yīng)該努力培養(yǎng)我的幽默感！

結(jié)束語

在本文中，我們學(xué)習(xí)了如何在本地構(gòu)建Llama3.2-Vision模型并管理聊天式交互的對話歷史記錄，從而增強(qiáng)用戶參與度。我們探索了Llama 3.2的零樣本能力，并領(lǐng)悟了其場景理解、推理和OCR技能。

我們還可以將其他一些高級技術(shù)應(yīng)用于Llama 3.2，例如對獨(dú)特數(shù)據(jù)進(jìn)行微調(diào)，或使用檢索增強(qiáng)生成（RAG）來進(jìn)行預(yù)測并減少幻覺。

總體而言，本文帶領(lǐng)你深入了解了快速發(fā)展的多模態(tài)LLM領(lǐng)域及其在各種應(yīng)用中的強(qiáng)大功能。

參考文獻(xiàn)

【0】本文示例項(xiàng)目在Colab Notebook地址：??https://gist.github.com/Lihi-Gur-Arie/0e87500813c29bb4c4a6a990795c3aaa??

【1】Llama 3模型介紹地址：https://arxiv.org/pdf/2407.21783

【2】Llama 3.2 11B Vision模型要求：https://llamaimodel.com/requirements-3-2/

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計算機(jī)教師，自由編程界老兵一枚。

原文標(biāo)題：??Chat with Your Images Using Llama 3.2-Vision Multimodal LLMs??，作者：Lihi Gur Arie

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

大型語言模型

已于2024-12-17 07:53:49修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

使用本地部署的Hermes 2 Pro 構(gòu)建開放的LLM應(yīng)用程序

51CTO內(nèi)容精選 ? 2260瀏覽 ? 0回復(fù)
構(gòu)建可靠AI應(yīng)用的LLM三角原則

51CTO內(nèi)容精選 ? 2308瀏覽 ? 0回復(fù)
Meta首個開源多模態(tài)模型Llama 3.2橫空出世，能力不輸GPT4o-mini；小扎：開源的拐點(diǎn)來了！

51CTO技術(shù)棧 ? 2905瀏覽 ? 0回復(fù)
Llama 3.2：AI視覺革新，手機(jī)也能跑大模型

sbf_2000 ? 2501瀏覽 ? 0回復(fù)
Llama3.2開源：Meta發(fā)布1B和3B端側(cè)模型、11B和90B多模態(tài)模型

NLP工作站 ? 4052瀏覽 ? 0回復(fù)
Llama 3.2 強(qiáng)勢震撼登場：從 1B 純文本躍至 90B 多模態(tài)，成就端側(cè) AI 巔峰杰作

穿越時空111 ? 3248瀏覽 ? 0回復(fù)
Meta剛開源llama 3.2多模態(tài)，就被打敗了！

NLP前沿1 ? 2591瀏覽 ? 0回復(fù)
Meta開源多模態(tài)模型——Llama 3.2

Aceryt ? 2627瀏覽 ? 0回復(fù)
多模態(tài)RAG應(yīng)用開發(fā)實(shí)戰(zhàn)演練

51CTO內(nèi)容精選 ? 1863瀏覽 ? 0回復(fù)
Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)

Baihai_IDP ? 2470瀏覽 ? 0回復(fù)
三款出色的無代碼LLM應(yīng)用程序構(gòu)建神器

51CTO內(nèi)容精選 ? 1976瀏覽 ? 0回復(fù)
多模態(tài)RAG-VisRAG：基于視覺的檢索增強(qiáng)生成在多模態(tài)文檔上的應(yīng)用

大模型自然語言處理 ? 2419瀏覽 ? 0回復(fù)
多模態(tài)語言模型實(shí)戰(zhàn)之音樂轉(zhuǎn)錄

51CTO內(nèi)容精選 ? 2357瀏覽 ? 0回復(fù)
使用Llama 3.2-Vision大模型，搭建本地Ollama OCR應(yīng)用

AI科技論談 ? 7611瀏覽 ? 0回復(fù)
Dolphin 3.0 發(fā)布（Llama 3.1 + 3.2 + Qwen 2.5）：本地優(yōu)先、可操縱的 AI 模型

Halo咯咯 ? 2027瀏覽 ? 0回復(fù)
用開源框架Chipper解鎖本地AI：無需云或API密鑰即可構(gòu)建RAG應(yīng)用

51CTO內(nèi)容精選 ? 1727瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實(shí)現(xiàn)方法思路

大模型自然語言處理 ? 1635瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開源最強(qiáng)MoE多模態(tài)模型，1000萬上下文碾壓行業(yè)！

AI博物院 ? 1180瀏覽 ? 0回復(fù)
LLM實(shí)戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致

NLP工作站 ? 566瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenUI：從構(gòu)思到UI僅需數(shù)秒 11h前發(fā)布
MCP安全噩夢終結(jié)者：Agent框架如何重構(gòu)AI防護(hù)新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開發(fā)實(shí)戰(zhàn)——構(gòu)建LangChain代理客戶端 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：基于CNN＋PyTorch實(shí)現(xiàn)視覺檢測分類

下一篇：生成式人工智能如何改變軟件開發(fā)

社區(qū)精華內(nèi)容

目錄