自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="txvee"></ruby>

<sub id="txvee"></sub>

<legend id="txvee"><track id="txvee"></track></legend>

<label id="txvee"><label id="txvee"></label></label>

<em id="txvee"></em><style id="txvee"></style>

<sub id="txvee"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

AI大模型看手相！圖片視頻加持深度思考，阿里QVQ-Max“神了神了”

作者：量子位 2025-03-31 07:30:00

人工智能新聞

QVQ-Max，第一版視覺推理模型，對(duì)任意圖像或視頻都可以進(jìn)行深度思考。

阿里又發(fā)了個(gè)有意思的大模型——

QVQ-Max，第一版視覺推理模型，對(duì)任意圖像或視頻都可以進(jìn)行深度思考。

舉個(gè)有趣的例子，上傳一張你的手掌，再點(diǎn)擊Thinking，QVQ-Max就可以給你看手相：

可以看到，在深度思考過后，QVQ-Max就開始逐步分析手掌上的線條和其他特征。

包括心線、頭線、生命線等主要線條的分析，以及戒指手指上的金戒指的象征意義。

這還只是一個(gè)比較有娛樂性的例子。

如果你一口氣給QVQ-Max“喂”多張圖片，它也可以進(jìn)行深度思考：

這兩張圖片描繪了哪些風(fēng)景？它們之間的關(guān)系是什么？

在一頓思考過后，QVQ-Max準(zhǔn)確地識(shí)別出兩張圖聯(lián)系——都是西湖的風(fēng)景，但一張是春夏時(shí)節(jié)，另一張是冬季。

再如數(shù)學(xué)推理，同樣是給它“喂”一張圖即可，連提問都省了：

在思考之后，QVQ-Max是找到了數(shù)字們之間的規(guī)律，并最終給出了正確答案：10。

以及直接上傳一個(gè)手繪簡筆畫視頻，并附上一句：

分析視頻，將視覺內(nèi)容與文字結(jié)合，并為視頻中的鏡頭創(chuàng)建生動(dòng)有趣的字幕。

最終，QVQ-Max依舊是穩(wěn)穩(wěn)地完成了任務(wù)。

網(wǎng)友們看罷，也是麻溜地去試了試。

不過這一次，QVQ-Max有點(diǎn)小翻車——路飛是認(rèn)對(duì)了，但這個(gè)喬巴……

以及啊，這兩天被OpenAI GPT-4o圖像生成帶火的吉卜力，網(wǎng)友們也是跟上了：

那么QVQ-Max的圖像視頻深度思考實(shí)力到底如何，我們這就親手嘗試一番。

實(shí)測(cè)QVQ-Max

首先，我們還是來測(cè)試一下QVQ-Max看圖解數(shù)學(xué)題的能力。

題目是這樣的：

然后我們提問：

這道題的答案是多少？

在深度思考過后，QVQ-Max不僅精準(zhǔn)識(shí)別出了手寫的題目，而且給出了正確答案：2。

剛才Qwen官方給出了看手相的例子，這次我們?cè)賮怼拔埂毕逻@張圖：

問題是這樣的：

這是什么？

嗯，是比較全面地介紹了星盤。

接下來，我們?cè)賮頊y(cè)試一下視頻推理，例子就用Anthropic最新發(fā)布的一個(gè)：

若是刨去視頻里的背景音，單是看內(nèi)容，還是比較抽象的。

對(duì)此，QVQ-Max給出的理解是：

從觀察到推理

除了效果之外，雖然Qwen團(tuán)隊(duì)沒有公布相關(guān)論文，但對(duì)于背后的技術(shù)亮點(diǎn)，團(tuán)隊(duì)還是簡單的介紹了一番。

首先，團(tuán)隊(duì)在MathVision這個(gè)benchmark（匯集各類困難多模態(tài)數(shù)學(xué)）上進(jìn)行了一番測(cè)試：

結(jié)果表明，通過調(diào)整模型thinking的最大長度，模型在MathVision上的準(zhǔn)確率也會(huì)持續(xù)提升。

除此之外，團(tuán)隊(duì)還總結(jié)了QVQ-Max的三大能力特點(diǎn)。

包括對(duì)圖片的解析能力非常強(qiáng)，無論是復(fù)雜的圖表還是日常生活中隨手拍的照片，它都能快速識(shí)別出關(guān)鍵元素。比如，它可以告訴你一張照片里有哪些物品、有什么文字標(biāo)識(shí)，甚至還能指出一些你可能忽略的小細(xì)節(jié)。

僅僅識(shí)別出圖片里的內(nèi)容還不夠，QVQ-Max還能進(jìn)一步分析這些信息，并結(jié)合背景知識(shí)得出結(jié)論。

例如，在一道幾何題中，它可以根據(jù)題目附帶的圖形推導(dǎo)出答案；在一段視頻里，它能根據(jù)畫面內(nèi)容推測(cè)出接下來可能發(fā)生的情節(jié)。

除了分析和推理，QVQ-Max還能做一些有趣的事情，比如幫你設(shè)計(jì)插畫、生成短視頻腳本，甚至根據(jù)你的需求創(chuàng)作角色扮演的內(nèi)容。

如果你上傳一幅草稿，它可能會(huì)幫你完善成一幅完整的作品；上傳一個(gè)日常照片，它可以化身犀利的評(píng)論家，占卜師。

值得注意的是，QVQ-Max是免費(fèi)可用的哦，感興趣的朋友快去試試吧~

體驗(yàn)地址：
https://chat.qwen.ai

責(zé)任編輯：張燕妮來源：量子位

圖像生成 AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="krfuo"></style>

<strong id="krfuo"><button id="krfuo"></button></strong>

<sub id="krfuo"></sub>