自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里推出“眼睛”模型QVQ:全球第一個(gè)用于視覺(jué)推理的開(kāi)放權(quán)重模型

人工智能 新聞
阿里推出基于 Qwen2-VL-72B 構(gòu)建的開(kāi)源多模態(tài)推理模型QVQ

這可能是全球第一個(gè)用于視覺(jué)推理的開(kāi)源權(quán)重模型,名為QVQ,其中的“V”代表視覺(jué)。它只需讀取一張圖像和一條指令,就能開(kāi)始思考,在需要時(shí)進(jìn)行反思,持續(xù)推理,最后得出有把握的預(yù)測(cè)!不過(guò),該模型仍處于實(shí)驗(yàn)階段

人的語(yǔ)言和視覺(jué)緊密交織,塑造著我們感知和理解世界的方式,QVQ的主要目標(biāo)是模仿人的這一思維方式

QVQ 在人工智能的視覺(jué)理解和復(fù)雜問(wèn)題解決能力方面實(shí)現(xiàn)了重大突破。在 MMMU 評(píng)測(cè)中,QVQ 取得了 70.3 的優(yōu)異成績(jī),并且在各項(xiàng)數(shù)學(xué)相關(guān)基準(zhǔn)測(cè)試中相比 Qwen2-VL-72B-Instruct 都有顯著提升。通過(guò)細(xì)致的逐步推理,QVQ 在視覺(jué)推理任務(wù)中展現(xiàn)出增強(qiáng)的能力,尤其在需要復(fù)雜分析思維的領(lǐng)域表現(xiàn)出色

模型表現(xiàn)

QVQ在 4 個(gè)數(shù)據(jù)集上評(píng)估 QVQ-72B-Preview,包括:

MMMU:大學(xué)級(jí)別的多學(xué)科多模態(tài)評(píng)測(cè)集,旨在考察模型視覺(jué)相關(guān)的綜合理解和推理能力

MathVista:數(shù)學(xué)相關(guān)的視覺(jué)推理測(cè)試集,評(píng)估拼圖測(cè)試圖形的邏輯推理、函數(shù)圖的代數(shù)推理和學(xué)術(shù)論文圖形的科學(xué)推理等能力

MathVision:高質(zhì)量多模態(tài)數(shù)學(xué)推理測(cè)試集,來(lái)自于真實(shí)的數(shù)學(xué)競(jìng)賽,相比于MathVista具有更多的問(wèn)題多樣性和學(xué)科廣度

OlympiadBench:奧林匹克競(jìng)賽級(jí)別的雙語(yǔ)多模態(tài)科學(xué)基準(zhǔn)測(cè)試集,包含來(lái)自?shī)W林匹克數(shù)學(xué)和物理競(jìng)賽的8,476個(gè)問(wèn)題,包括中國(guó)高考。每個(gè)問(wèn)題都附有專家級(jí)別的注釋,詳細(xì)說(shuō)明了逐步推理的過(guò)程

圖片

QVQ-72B-Preview 在 MMMU 基準(zhǔn)測(cè)試中取得了 70.3 的分?jǐn)?shù),顯著超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三個(gè)專注于數(shù)學(xué)和科學(xué)問(wèn)題的基準(zhǔn)測(cè)試中,該模型表現(xiàn)出色,有效縮小了與領(lǐng)先的最先進(jìn)的 o1 模型之間的差距

阿里展示幾個(gè)QVQ解題的例子,QVQ可以展現(xiàn)實(shí)時(shí)思維過(guò)程

圖片

圖片

圖片

圖片

 

盡管QVQ展示了令人驚嘆的能力,但它仍有一些局限性值得關(guān)注:

1. 語(yǔ)言混合與切換:模型可能會(huì)在不同語(yǔ)言間切換,影響表達(dá)的清晰度

2. 遞歸推理問(wèn)題:在某些情況下,模型可能陷入循環(huán)邏輯,導(dǎo)致冗長(zhǎng)卻無(wú)結(jié)論的回答

3. 安全與倫理問(wèn)題:模型需要更高的安全性保障,用戶在部署時(shí)需格外謹(jǐn)慎

4. 性能與基準(zhǔn)限制:在多步視覺(jué)推理中,模型可能逐漸失去對(duì)圖像內(nèi)容的關(guān)注,產(chǎn)生“幻覺(jué)”結(jié)果

試用:

HF: https://huggingface.co/collections/Qwen/qvq-676448c820912236342b9888

ModelScope: https://modelscope.cn/models/Qwen/QVQ-72B-Preview

Kaggle: https://kaggle.com/models/qwen-lm/qvq-72b-preview

責(zé)任編輯:張燕妮 來(lái)源: AI寒武紀(jì)
相關(guān)推薦

2025-03-28 11:06:10

視覺(jué)推理模型阿里通義千問(wèn)AI

2024-03-12 13:22:00

訓(xùn)練數(shù)據(jù)

2025-01-14 13:51:18

2020-06-30 16:50:15

RPA應(yīng)用

2024-08-20 14:01:21

2024-12-26 07:10:00

2011-12-29 15:18:54

開(kāi)放平臺(tái)

2017-10-13 15:59:24

iPhone機(jī)器學(xué)習(xí)iOS

2023-03-22 11:44:49

NVIDIAGTC

2024-12-25 20:13:35

2019-10-20 09:03:18

微軟阿里云應(yīng)用

2024-09-05 14:25:00

訓(xùn)練代碼

2023-01-05 09:33:37

視覺(jué)模型訓(xùn)練

2023-07-04 10:18:25

開(kāi)源模型

2021-07-07 06:04:33

人工智能Pytorch神經(jīng)網(wǎng)絡(luò)

2025-02-21 10:00:35

谷歌模型

2012-05-28 09:24:49

虛擬化

2023-12-18 12:52:18

2024-12-03 15:51:45

2024-02-01 09:43:32

模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)