自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

QVQ-72B，如期而至！繼QWQ后，通義千問又開源視覺推理大模型！

發(fā)布于 2024-12-25 12:12

瀏覽

0收藏

大家好，我是劉聰NLP。

沒錯(cuò)，是的，對(duì)的，很棒，千問！

QWQ之后，千問團(tuán)隊(duì)又開源了視覺推理大模型QVQ，是72B的呦。

圣誕快樂，如期而至！

HF: https://huggingface.co/Qwen/QVQ-72B-Preview

為啥是72B，可想而知，這個(gè)QVQ就是基于前一段時(shí)間開源的Qwen2-VL-72B模型上進(jìn)一步訓(xùn)練得來的。

QVQ-72B，如期而至！繼QWQ后，通義千問又開源視覺推理大模型！-AI.x社區(qū)

有個(gè)7B的為啥沒出QVQ-7B，估計(jì)是參數(shù)來太少，做o1式推理效果不行，QWQ也是32B起步的，所以模型參數(shù)量很關(guān)鍵。

在榜單上的效果，QVQ在MMMU是突破了70，并且整體效果相較于Qwen2-VL-72B還是好了很多，同時(shí)也是對(duì)標(biāo)了閉源模型，QVQ依舊能打。

QVQ-72B，如期而至！繼QWQ后，通義千問又開源視覺推理大模型！-AI.x社區(qū)

但QVQ-72B依然存在一些問題：

可能存在語言混亂的現(xiàn)象，最明顯的就是中英文夾雜
模型容易陷入循環(huán)推理，導(dǎo)致回復(fù)結(jié)果冗長(zhǎng)，甚至可能無法返回最終答案
安全性可能有些問題，估計(jì)這個(gè)版本在安全上應(yīng)該沒來及的做太多，甚至是沒做
QVQ不能完全替代Qwen2-VL-72B，隨著推理步驟的驗(yàn)證，模型可能逐漸失去對(duì)圖像內(nèi)容的關(guān)注，從而產(chǎn)生幻覺。

模型，我還在下載，測(cè)試完，再寫評(píng)測(cè)文章！

用法跟Qwen2-VL-72B一樣，HF代碼如下：

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

# 模型通過HF Repo加載
model = Qwen2VLForConditionalGeneration.from_pretrained(
    "Qwen/QVQ-72B-Preview", torch_dtype="auto", device_map="auto"
)

# 加載processor
processor = AutoProcessor.from_pretrained("Qwen/QVQ-72B-Preview")

# 這里的系統(tǒng)提示詞跟之前有差別
messages = [
    {
        "role": "system",
        "content": [
            {"type": "text", "text": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."}
        ],
    },
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/QVQ/demo.png",
            },
            {"type": "text", "text": "What value should be filled in the blank space?"},
        ],
    }
]

# 輸入準(zhǔn)備
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# 模型推理
generated_ids = model.generate(**inputs, max_new_tokens=8192)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

本文轉(zhuǎn)載自 ??NLP工作站??，作者：劉聰NLP

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Mistral開源8X22B大模型，OpenAI更新GPT-4 Turbo視覺，都在欺負(fù)谷歌

輕薄滴假象 ? 2279瀏覽 ? 0回復(fù)
Google開源大模型新成員CodeGemma、RecurrentGemma，繼Transformer后新架構(gòu)Griffin誕生

AIGC最前線 ? 3403瀏覽 ? 0回復(fù)
【乘風(fēng)進(jìn)階學(xué)習(xí)季】夏日初長(zhǎng)，乘風(fēng)而上，碼出未來！

AI.x社區(qū)官方賬號(hào) ? 52.9w瀏覽 ? 36回復(fù)
國(guó)內(nèi)大模型文心一言、通義千問、豆包、混元大模型、訊飛星火、Kimichat、智譜清言，到底該用哪個(gè)？

wsp_ping ? 1.5w瀏覽 ? 0回復(fù)
探索阿里通義千問 Qwen2.5：新一代開源大模型的卓越力量

穿越時(shí)空111 ? 4784瀏覽 ? 0回復(fù)
Qwen2.5：13個(gè)新模型來襲！開源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測(cè)試

老蛀蟲 ? 4802瀏覽 ? 0回復(fù)
HuggingFace模型轉(zhuǎn)一鍵llamafile包完整教程，通義千問成功案例分享

凝固的雨_1 ? 3347瀏覽 ? 0回復(fù)
Qwen2.5：13個(gè)新模型來襲！開源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測(cè)試

老蛀蟲 ? 4017瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！?。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 3942瀏覽 ? 0回復(fù)
阿里重磅開源QwQ-32B：自我思考、糾正，數(shù)學(xué)能力擊敗o1模型

Aceryt ? 7246瀏覽 ? 0回復(fù)
阿里巴巴Qwen團(tuán)隊(duì)發(fā)布QwQ-32B-Preview：包含320億參數(shù)的開放模型，專為解決高級(jí)推理任務(wù)而設(shè)計(jì)

Halo咯咯 ? 4346瀏覽 ? 0回復(fù)
Hugging Face 發(fā)布 SmolVLM：用于設(shè)備端推理的 2B 參數(shù)視覺語言模型

Halo咯咯 ? 2238瀏覽 ? 0回復(fù)
Qwen 團(tuán)隊(duì)發(fā)布 QvQ：用于多模態(tài)推理的開放權(quán)重模型

Halo咯咯 ? 2049瀏覽 ? 0回復(fù)
一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn)，DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)

海因斯DK ? 2034瀏覽 ? 0回復(fù)
小而美！1B模型如何通過測(cè)試時(shí)優(yōu)化逆襲405B LLM？

arnoldzhw ? 1642瀏覽 ? 0回復(fù)
阿里開源QwQ-32B，性能與Deepseek R1持平。一個(gè)擁有320億參數(shù)的全新推理模型

Halo咯咯 ? 2129瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 2431瀏覽 ? 0回復(fù)
開源大模型再添猛將！昆侖萬維Skywork-OR1系列震撼發(fā)布，推理能力比肩640B模型！

AI博物院 ? 809瀏覽 ? 0回復(fù)
【人工智能】通過ChatGPT、Claude與通義千問 API 實(shí)現(xiàn)智能語料知識(shí)圖譜的自動(dòng)化構(gòu)建（詳細(xì)教程）

唐克 ? 515瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM實(shí)戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致 8天前發(fā)布
Llama4 模型細(xì)節(jié) & 效果實(shí)測(cè) 2025-04-09 07:07:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：實(shí)測(cè)！最新端側(cè)全模態(tài)大模型Megrez-3B-Omni

下一篇：長(zhǎng)文 | 大模型Post-Training總結(jié)

社區(qū)精華內(nèi)容

目錄

<pre id="8sq98"></pre>