自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="qknc6"><li id="qknc6"><pre id="qknc6"></pre></li></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

阿里開源首個(gè)視覺推理模型，擊敗GPT-4o，網(wǎng)頁一度404

2024-12-26 07:10:00

據(jù)介紹，這可能是全球第一個(gè)視覺推理模型，也可以把它理解為上個(gè)月開源的阿里版o1模型QwQ的視覺版本。

過年關(guān)啦！阿里送上了今年最后一份禮物——

“眼睛”模型QVQ，其中V代表視覺。它只需讀取圖像和指令，就可以開始思考。

I’m watching you！

據(jù)介紹，這可能是全球第一個(gè)視覺推理模型，也可以把它理解為上個(gè)月開源的阿里版o1模型QwQ的視覺版本。

可以解決數(shù)物化生等各領(lǐng)域問題。

讀梗圖、數(shù)鴨子也不在話下。

目前該模型處于實(shí)驗(yàn)階段，開放測(cè)試。

結(jié)果可能因?yàn)樵L問過多，網(wǎng)頁一度還404了。

從性能表現(xiàn)上看，QVQ在MMMU 上的得分為 70.3，這一結(jié)果超過GPT-4o、Claude 3.5 Sonnet，但比o1模型還差了那么一點(diǎn)。

阿里開源首個(gè)視覺推理模型

官方給了幾個(gè)演示Demo，讓咱們好好感知一下它的推理能力。

首先來看這道數(shù)學(xué)題。

解題思路如下：

再來個(gè)幾何題，算算這個(gè)沙發(fā)的面積。

它的推理過程如下：

高中化學(xué)題：圖片中的濾液E是什么化學(xué)物質(zhì)？

它的答案是：硫酸亞鐵溶液。

他們?cè)谒膫€(gè)數(shù)據(jù)集對(duì)眼睛模型QVQ-72B-Preview進(jìn)行了評(píng)估，包括MMMU、MathVista、MathVision、OlympiadBench，主要考察數(shù)學(xué)多模態(tài)推理以及綜合理解推理方面的能力。

QVQ-72B-Preview在 MMMU 基準(zhǔn)測(cè)試中取得了70.3分，大大超過了其前身 Qwen2-VL-72B-Instruct。

此外，在其余三個(gè)以數(shù)學(xué)和科學(xué)問題為重點(diǎn)的基準(zhǔn)測(cè)試中，該模型也表現(xiàn)出了卓越的性能，縮小了與o1模型之間的差距。

不過目前該模型屬于是團(tuán)隊(duì)的實(shí)驗(yàn)研究模型，不是特別穩(wěn)定，有幾個(gè)限制需要注意。

語言混合和代碼切換：該模型可能會(huì)意外地混合語言或在語言之間切換，從而影響回答的清晰度。
遞歸推理：模型可能會(huì)陷入循環(huán)邏輯模式，產(chǎn)生冗長(zhǎng)的回復(fù)而無法得出結(jié)論。
安全和道德方面的考慮：該模型需要加強(qiáng)安全措施，以確保性能可靠和安全，用戶在部署時(shí)應(yīng)謹(jǐn)慎。
性能和基準(zhǔn)限制：盡管該模型在視覺推理方面有所改進(jìn)，但它不能完全取代 Qwen2-VL-72B-Instruct 的功能。此外，在多步驟視覺推理過程中，模型可能會(huì)逐漸失去對(duì)圖像內(nèi)容的關(guān)注，從而導(dǎo)致幻覺。

好好預(yù)防針打了，那咱們淺淺實(shí)測(cè)一波。

比如這道考驗(yàn)谷歌版o1的題目：

如何利用這些數(shù)字加起來等于30？

結(jié)果它識(shí)別出來了這幾個(gè)球?qū)?yīng)的數(shù)字，沒有意識(shí)到9號(hào)球可以翻轉(zhuǎn)成6號(hào)球，然后就陷入無盡的思考之中。。。

在blog最后，他們也透露了接下來的目標(biāo)——增強(qiáng)視覺語言基礎(chǔ)模型，使其具備基于視覺信息進(jìn)行深度思考和推理的高級(jí)能力。

把時(shí)間拉長(zhǎng)，他們計(jì)劃是將更多的模態(tài)整合到統(tǒng)一的模型中，能夠應(yīng)對(duì)復(fù)雜的挑戰(zhàn)并參與科學(xué)探索。

（模型盡頭是AI For Science？）

參考鏈接：
[1]https://x.com/Alibaba_Qwen/status/1871602879972405626。
[2]https://qwenlm.github.io/blog/qvq-72b-preview/。

責(zé)任編輯：姜華來源：量子位

視覺推理模型 “眼睛”模型QVQ 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="c74hs"></blockquote>}