自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI大模型看手相!圖片視頻加持深度思考,阿里QVQ-Max“神了神了”

人工智能 新聞
QVQ-Max,第一版視覺推理模型,對(duì)任意圖像或視頻都可以進(jìn)行深度思考。

阿里又發(fā)了個(gè)有意思的大模型——

QVQ-Max,第一版視覺推理模型,對(duì)任意圖像或視頻都可以進(jìn)行深度思考。

舉個(gè)有趣的例子??,上傳一張你的手掌,再點(diǎn)擊Thinking,QVQ-Max就可以給你看手相

可以看到,在深度思考過后,QVQ-Max就開始逐步分析手掌上的線條和其他特征。

包括心線、頭線、生命線等主要線條的分析,以及戒指手指上的金戒指的象征意義。

這還只是一個(gè)比較有娛樂性的例子。

如果你一口氣給QVQ-Max“喂”多張圖片,它也可以進(jìn)行深度思考:

這兩張圖片描繪了哪些風(fēng)景?它們之間的關(guān)系是什么?

在一頓思考過后,QVQ-Max準(zhǔn)確地識(shí)別出兩張圖聯(lián)系——都是西湖的風(fēng)景,但一張是春夏時(shí)節(jié),另一張是冬季。

再如數(shù)學(xué)推理,同樣是給它“喂”一張圖即可,連提問都省了:

在思考之后,QVQ-Max是找到了數(shù)字們之間的規(guī)律,并最終給出了正確答案:10。

以及直接上傳一個(gè)手繪簡筆畫視頻,并附上一句:

分析視頻,將視覺內(nèi)容與文字結(jié)合,并為視頻中的鏡頭創(chuàng)建生動(dòng)有趣的字幕。

最終,QVQ-Max依舊是穩(wěn)穩(wěn)地完成了任務(wù)。

網(wǎng)友們看罷,也是麻溜地去試了試。

不過這一次,QVQ-Max有點(diǎn)小翻車——路飛是認(rèn)對(duì)了,但這個(gè)喬巴……

圖片

以及啊,這兩天被OpenAI GPT-4o圖像生成帶火的吉卜力,網(wǎng)友們也是跟上了:

圖片

那么QVQ-Max的圖像視頻深度思考實(shí)力到底如何,我們這就親手嘗試一番。

實(shí)測(cè)QVQ-Max

首先,我們還是來測(cè)試一下QVQ-Max看圖解數(shù)學(xué)題的能力。

題目是這樣的:

圖片

然后我們提問:

這道題的答案是多少?

圖片

在深度思考過后,QVQ-Max不僅精準(zhǔn)識(shí)別出了手寫的題目,而且給出了正確答案:2。

剛才Qwen官方給出了看手相的例子,這次我們?cè)賮怼拔埂毕逻@張圖:

圖片

問題是這樣的:

這是什么?

圖片

嗯,是比較全面地介紹了星盤。

接下來,我們?cè)賮頊y(cè)試一下視頻推理,例子就用Anthropic最新發(fā)布的一個(gè):

若是刨去視頻里的背景音,單是看內(nèi)容,還是比較抽象的。

對(duì)此,QVQ-Max給出的理解是:

圖片

從觀察到推理

除了效果之外,雖然Qwen團(tuán)隊(duì)沒有公布相關(guān)論文,但對(duì)于背后的技術(shù)亮點(diǎn),團(tuán)隊(duì)還是簡單的介紹了一番。

首先,團(tuán)隊(duì)在MathVision這個(gè)benchmark(匯集各類困難多模態(tài)數(shù)學(xué))上進(jìn)行了一番測(cè)試:

圖片

結(jié)果表明,通過調(diào)整模型thinking的最大長度,模型在MathVision上的準(zhǔn)確率也會(huì)持續(xù)提升。

除此之外,團(tuán)隊(duì)還總結(jié)了QVQ-Max的三大能力特點(diǎn)。

包括對(duì)圖片的解析能力非常強(qiáng),無論是復(fù)雜的圖表還是日常生活中隨手拍的照片,它都能快速識(shí)別出關(guān)鍵元素。比如,它可以告訴你一張照片里有哪些物品、有什么文字標(biāo)識(shí),甚至還能指出一些你可能忽略的小細(xì)節(jié)。

僅僅識(shí)別出圖片里的內(nèi)容還不夠,QVQ-Max還能進(jìn)一步分析這些信息,并結(jié)合背景知識(shí)得出結(jié)論。

例如,在一道幾何題中,它可以根據(jù)題目附帶的圖形推導(dǎo)出答案;在一段視頻里,它能根據(jù)畫面內(nèi)容推測(cè)出接下來可能發(fā)生的情節(jié)。

除了分析和推理,QVQ-Max還能做一些有趣的事情,比如幫你設(shè)計(jì)插畫、生成短視頻腳本,甚至根據(jù)你的需求創(chuàng)作角色扮演的內(nèi)容。

如果你上傳一幅草稿,它可能會(huì)幫你完善成一幅完整的作品;上傳一個(gè)日常照片,它可以化身犀利的評(píng)論家,占卜師。

值得注意的是,QVQ-Max是免費(fèi)可用的哦,感興趣的朋友快去試試吧~

體驗(yàn)地址:
https://chat.qwen.ai

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-28 11:06:10

視覺推理模型阿里通義千問AI

2022-02-25 11:05:47

IDEA工具功能

2022-09-30 15:35:43

AI視頻

2017-04-04 11:45:00

人工智能

2023-11-03 07:47:12

機(jī)器資源大模型:

2018-09-17 11:10:06

2021-02-26 10:43:59

Linux 開發(fā)操作系統(tǒng)

2025-02-14 08:00:00

DeepSeek知識(shí)圖譜知識(shí)圖譜激活

2019-01-18 13:00:09

數(shù)據(jù)中心云計(jì)算技術(shù)

2023-11-03 08:27:46

2021-09-24 09:35:34

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2022-04-06 10:35:22

開源項(xiàng)目阿里巴巴

2014-08-15 14:01:11

免費(fèi)wifi

2022-06-20 08:00:11

代碼Python命令

2024-07-23 10:39:20

2023-09-05 14:43:15

2023-08-22 20:48:06

模型釘釘阿里云

2023-11-07 08:28:08

GPT模型環(huán)境

2024-11-12 13:41:49

2016-10-10 13:14:15

比亞迪特斯拉新能源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)