自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中文性能反超VLM頂流GPT-4V,阿里Qwen-VL超大杯限免!看圖秒寫(xiě)編程視覺(jué)難題一眼辨出

人工智能 新聞
多模態(tài)大模型將是AI下一個(gè)爆點(diǎn)。最近,通義千問(wèn)VLM模型換新升級(jí),最最重要的是,還能限時(shí)免費(fèi)用。

最近,通義千問(wèn)實(shí)火。

前段時(shí)間被網(wǎng)友玩瘋的全民舞王,讓「AI科目三」頻頻登上熱搜。

讓甄嬛、慈禧、馬斯克、貓主子和兵馬俑能跳舞那款A(yù)I,就藏在通義千問(wèn)APP背后。

圖片

來(lái)源:深夜來(lái)點(diǎn)薯片

圖片

來(lái)源:深夜來(lái)點(diǎn)薯片

最強(qiáng)國(guó)產(chǎn)視覺(jué)語(yǔ)言模型了解一下

就在這幾天,通義千問(wèn)團(tuán)隊(duì)又對(duì)多模態(tài)大模型下手了——

再一次升級(jí)通義千問(wèn)視覺(jué)語(yǔ)言模型Qwen-VL,繼Plus版本之后,又推出Max版本。

Qwen-VL是阿里在2023年8月推出的具備圖文理解能力的大模型,基于通義千問(wèn)語(yǔ)言模型開(kāi)發(fā)。升級(jí)后的Qwen-VL視覺(jué)水平大幅提升,對(duì)很多圖片的理解水平接近人類(lèi)。

并且,還能夠支持百萬(wàn)像素以上的高清分辨率圖,以及各種極端長(zhǎng)寬比的圖片。

升級(jí)版模型限時(shí)免費(fèi),在通義千問(wèn)官網(wǎng)和APP都可體驗(yàn),API也可免費(fèi)調(diào)用。

評(píng)測(cè)結(jié)果顯示,Qwen-VL的升級(jí)版本在MMMU、MathVista等任務(wù)上遠(yuǎn)超業(yè)界所有開(kāi)源模型,在文檔分析(DocVQA)、中文圖像相關(guān)(MM-Bench-CN)等任務(wù)上超越GPT-4V,達(dá)到世界最佳水平。

圖片

在第三方權(quán)威評(píng)測(cè)上,Qwen-VL常常與GPT-4V、Gemini攜手占據(jù)業(yè)界三強(qiáng),與其他競(jìng)爭(zhēng)者拉開(kāi)相當(dāng)大的差距。

圖片

來(lái)源:OpenCompass

話不多說(shuō),小編立馬展開(kāi)實(shí)測(cè)。

多模態(tài)基礎(chǔ)能力

首先,我們直接來(lái)了一道難度拉滿的題——一張小編十年前在雪鄉(xiāng)拍的照片。

Qwen-VL-Max不僅一眼認(rèn)了出來(lái),而且還配上了一段非常優(yōu)美的描寫(xiě):

房屋上覆蓋著厚厚的積雪,像是童話里的小木屋。太陽(yáng)剛剛升起,給雪地和房屋染上了一層溫暖的色彩。遠(yuǎn)處的山巒和森林也籠罩在淡黃色的晨光中,整個(gè)場(chǎng)景顯得寧?kù)o而祥和。

圖片

而GPT-4V則表示,由于沒(méi)有具體的地標(biāo),因此無(wú)法給出確切的位置。

圖片

接下來(lái),Qwen-VL-Max不僅數(shù)對(duì)了難倒GPT-4V的「數(shù)數(shù)幾個(gè)葫蘆娃」問(wèn)題。

圖片

而且還通關(guān)了經(jīng)典的計(jì)算機(jī)視覺(jué)難題——「吉娃娃與松餅」。

圖片

類(lèi)似的「毛巾卷和沙皮狗」、「柯基屁股與土司」等等,也能順利答出。

圖片

圖片

甚至它還可以理解「給吉娃娃套上吐司」這樣惡搞的圖片。

圖片

對(duì)于在一張圖里分別辨認(rèn)多個(gè)名人這類(lèi)問(wèn)題,Qwen-VL-Max同樣能夠立刻給出正確的回答。

比如剛剛當(dāng)選ACM Fellow的圖靈三巨頭。

圖片

以及科技圈的一眾大佬。

圖片

圖片

同樣,它也可以精準(zhǔn)識(shí)別出圖像中的文字,即便是手寫(xiě)體也不在話下。

圖片

相比之下,GPT-4V卻未能識(shí)別對(duì)圖中毛筆寫(xiě)的字,而是給出了「恭賀新禧大吉大利」。

圖片

有趣的是,Qwen-VL-Max還能根據(jù)自己對(duì)圖像的理解寫(xiě)詩(shī)。

比如這首根據(jù)「權(quán)力的游戲」中的名場(chǎng)面作的中文詩(shī),就頗有意境。

圖片

而根據(jù)同一個(gè)場(chǎng)景作出的英文詩(shī),也很有韻致。

圖片

視覺(jué)Agent能力

除了基礎(chǔ)的描述和識(shí)別能力外,Qwen-VL-Max還具備視覺(jué)定位能力,可以針對(duì)畫(huà)面指定區(qū)域進(jìn)行問(wèn)答。

比如它能在一群貓貓中準(zhǔn)確框出黑貓。

圖片

還能在吉娃娃和松餅中框出吉娃娃。

圖片

我們標(biāo)出OpenAI聯(lián)創(chuàng)Karpathy帖子中的一個(gè)圖,問(wèn)Qwen-VL-Max標(biāo)出的部分是什么意思。

圖片

它立馬給出的正確回答:標(biāo)出的部分是流程圖,展現(xiàn)了AlphaCodium的代碼生成過(guò)程。同時(shí)還給出了正確的描述。

圖片

關(guān)鍵信息提取處理

在實(shí)測(cè)中我們發(fā)現(xiàn),Qwen-VL-Max最顯著的進(jìn)步之一,就是基于視覺(jué)完成復(fù)雜的推理。

這不僅限于描述內(nèi)容,而是能理解復(fù)雜的表達(dá)形式。

比如,下面這道看似簡(jiǎn)單初中幾何題,由于條件信息都被嵌入進(jìn)了圖像里的,其實(shí)難倒了不少視覺(jué)模型:

圖片

圖片

相比之下,Qwen-VL-Max直接給出了正確解答。

上下滑動(dòng)查看

再比如解釋下圖中的算法流程圖。

圖片

Qwen-VL-Max會(huì)清晰地給出整套流程的解釋?zhuān)恳徊街笮枰M(jìn)行的步驟。

圖片

小朋友的編程題,它也能正確地理解圖中的流程,轉(zhuǎn)換成Python程序。

圖片

圖片

import random


# 初始化變量
my_number = random.randint(1, 10)
guess = None


# 猜數(shù)字循環(huán)
while guess != my_number:
    guess = int(input("Guess a number between 1 and 10: "))
    
    if guess > my_number:
        print("Too high!")
    elif guess < my_number:
        print("Too low!")


print("You got it!")

直接給圖表,Qwen-VL-Max就能對(duì)之做出深入分析和解讀。

論文中多復(fù)雜的圖表,它都能瞬間幫我們整理成表格的形式,簡(jiǎn)潔直觀。

圖片

圖片

下方的圖形推理題,它能準(zhǔn)確推測(cè)出圖四應(yīng)該是星星中有一個(gè)點(diǎn)的圖形。

圖片

文本信息識(shí)別處理

這次,迭代后的Qwen-VL-Plus/Max處理圖像中的文本的能力也顯著提升,尤其是中文和英文文本。

模型可以有效地從表格和文檔中提取信息,并將這些信息重新格式化。

比如,隨手拍一張鋪滿字的藥品說(shuō)明書(shū)圖片上傳,要求它按規(guī)范格式輸出文字。

Qwen-VL-Max不僅可以準(zhǔn)確識(shí)別出圖片中文字,還可以將圖中【】同步出來(lái)。

圖片

甚至下面這種寫(xiě)滿筆記而且還存在遮蓋的掃描版文檔,也能識(shí)別出來(lái)。

圖片


Qwen-VL碾壓同級(jí)大模型,AI社區(qū)盛贊

通義千問(wèn)在多種復(fù)雜視覺(jué)任務(wù)上的表現(xiàn)著實(shí)讓人驚艷,背后的技術(shù)架構(gòu)是怎樣的?

早在去年8月,團(tuán)隊(duì)就開(kāi)源了基于Qwen-7B和ViT-G的Qwen-VL。

圖片

論文地址:https://arxiv.org/abs/2308.12966

不同于直接使用視覺(jué)語(yǔ)言下游任務(wù)數(shù)據(jù)集進(jìn)行對(duì)齊,團(tuán)隊(duì)在訓(xùn)練初代Qwen-VL時(shí)設(shè)計(jì)了一種三階段的訓(xùn)練方法。

圖片

階段一:預(yù)訓(xùn)練——將視覺(jué)編碼器與凍結(jié)LLM對(duì)齊

因?yàn)橛?xùn)練數(shù)據(jù)規(guī)模不足,可能導(dǎo)致任務(wù)泛化性能較差,所以使用大量的弱監(jiān)督圖像文本對(duì)數(shù)據(jù)(如LAION-5B)進(jìn)行對(duì)齊。

與此同時(shí),為了保留LLM的理解和生成能力,還需凍結(jié)LLM。

階段二:多任務(wù)預(yù)訓(xùn)練——賦予Qwen-VL完成多樣下游任務(wù)的能力

讓LLM在視覺(jué)問(wèn)答、圖像描述生成(Image Caption)、OCR、視覺(jué)定位(Visual Grounding)等各種任務(wù)上完成預(yù)訓(xùn)練。

這里,直接用文字坐標(biāo)表示位置,因此LLM能夠自然地輸出關(guān)注元素的位置信息。

階段三:監(jiān)督微調(diào)——將視覺(jué)語(yǔ)言模型與人類(lèi)偏好對(duì)齊

收集并構(gòu)造了一組多樣化的SFT樣本,對(duì)視覺(jué)語(yǔ)言模型進(jìn)行了初步的對(duì)齊處理。

可以看到,在主流多模態(tài)任務(wù)評(píng)測(cè)和多模態(tài)聊天能力評(píng)測(cè)中,Qwen-VL都取得同期遠(yuǎn)超同等規(guī)模通用模型的表現(xiàn)。

圖片

Qwen-VL模型開(kāi)源后,在AI社區(qū)受到了廣泛的好評(píng)和推薦。

有網(wǎng)友感慨道,人工智能的下一次進(jìn)化來(lái)了!Qwen-VL模型巧妙地融合了視覺(jué)+文本推理,推進(jìn)了多模態(tài)人工智能發(fā)展。

圖片

還有網(wǎng)友表示,通義千問(wèn)團(tuán)隊(duì)的工作非常出色和認(rèn)真,尤其是新發(fā)布的版本,絕對(duì)優(yōu)秀。

圖片

當(dāng)然,全新迭代后的Qwen-VL-Plus性能更是大幅提升,網(wǎng)友紛紛開(kāi)啟測(cè)試。

比如有人發(fā)現(xiàn)Qwen-VL-Plus竟通過(guò)了自己的「蘑菇測(cè)試」(識(shí)別圖片中某個(gè)特定種類(lèi)的蘑菇),他表示「這是第二個(gè)開(kāi)源VLM模型通過(guò)這項(xiàng)測(cè)試」。

圖片

還有人將Qwen-VL-Plus與ChatGPT進(jìn)行了對(duì)比,通義千問(wèn)模型的回答更加讓人印象深刻。

圖片

AI下一個(gè)爆點(diǎn):多模態(tài)視覺(jué)語(yǔ)言模型

2023,是大語(yǔ)言模型的爆發(fā)年。

在LLM之后,下一個(gè)爆發(fā)的賽道會(huì)在哪里?

很多人認(rèn)為,是多模態(tài)。能否實(shí)現(xiàn)AGI,或許關(guān)鍵就在這里。

「多模態(tài)模型將成為AI時(shí)代下一爆點(diǎn)」這個(gè)論斷,也得到了業(yè)界眾多AI大佬的背書(shū)。

OpenAI開(kāi)發(fā)者關(guān)系主管Logan Kilpatrick曾在AI Engineer峰會(huì)上表示,「2024年將是多模態(tài)模型年」。

最近HuggingFace的研究工程師在Latent Space播客采訪中更進(jìn)一步預(yù)測(cè),2年內(nèi)所有的LLM都將變成LMM。

Meta公共政策專(zhuān)家對(duì)2024年AI預(yù)測(cè),稱「LMM將不斷涌現(xiàn),并在多模態(tài)評(píng)估、多模態(tài)安全、多模態(tài)這個(gè)、多模態(tài)那個(gè)的爭(zhēng)論中取代LLM。此外,LMM是邁向真正通用人工智能助手的墊腳石」。

對(duì)此,圖靈獎(jiǎng)巨頭LeCun也表示贊同。

過(guò)去一年中,許多人見(jiàn)證了多模態(tài)大模型發(fā)展的重要里程碑。

從LLaVa、Imagebind、Flamingo,到GPT-4V、Gemini等大模型誕生,徹底改變了AI系統(tǒng)理解多種形式的數(shù)據(jù),并與之交互的方式。

在多模態(tài)大模型賽道上,國(guó)內(nèi)頭部科技公司阿里也在一直布局探索。

2021年推出M6系列預(yù)訓(xùn)練-微調(diào)模式,到2022年發(fā)布圖文模態(tài)任務(wù)統(tǒng)一的通用模型OFA系列,再到OFA-Sys的系統(tǒng)化AI學(xué)習(xí)的嘗試。

2023年通義千問(wèn)大模型問(wèn)世后,8月底阿里團(tuán)隊(duì)基于Qwen-7B打造的視覺(jué)理解大模型Qwen-VL正式開(kāi)源。

11月,阿里又開(kāi)源了音頻理解大模型Qwen-Audio,同時(shí)還升級(jí)了Qwen-VL,使之具備通用OCR、視覺(jué)推理、中文文本理解基礎(chǔ)能力,還能處理各種分辨率和規(guī)格的圖像。緊接著,就是Qwen-VL-Max的推出。

圖片

通義千問(wèn)團(tuán)隊(duì)表示,他們一直以來(lái)都把開(kāi)發(fā)與人類(lèi)一樣能聽(tīng)、能看、能理解、能溝通的「通用AI模型」作為目標(biāo)。

所有多模態(tài)大模型的迭代更新,最重要的價(jià)值就在于與落地應(yīng)用相融合,重塑各個(gè)行業(yè)。

LMM已成為AI企業(yè)關(guān)注的重點(diǎn)發(fā)展趨勢(shì),其泛化能力是形成完備的商業(yè)模式的關(guān)鍵能力之一。

而最先迎來(lái)革新的行業(yè),便是機(jī)器人領(lǐng)域。LMM將推動(dòng)未來(lái)家用服務(wù)機(jī)器人更進(jìn)一步走進(jìn)人類(lèi)生活。

經(jīng)過(guò)過(guò)去一年大模型的持續(xù)發(fā)酵,讓許多人看到AI+機(jī)器人的廣闊應(yīng)用前景,這也是為什么許多AI大佬將2024年稱之為「機(jī)器人元年」的原因。

圖片

比如,谷歌DeepMind團(tuán)隊(duì)升級(jí)的RT-2機(jī)器人由全新的「視覺(jué)語(yǔ)言動(dòng)作」模型的加持,多了一個(gè)動(dòng)作模態(tài),表現(xiàn)出驚人的學(xué)習(xí)能力和理解力。

圖片

多模態(tài)大模型Gemini發(fā)布后,谷歌DeepMind的首席執(zhí)行官Hassabis同樣表示,「團(tuán)隊(duì)正在研究如何將Gemini與機(jī)器人技術(shù)相結(jié)合,與世界進(jìn)行物理互動(dòng)」。

LMM還可以通過(guò)醫(yī)學(xué)影像分析幫助醫(yī)生診斷疾病,并幫助醫(yī)生解讀醫(yī)學(xué)圖像和報(bào)告以更快地進(jìn)行診斷。

前幾天,世界衛(wèi)生組織(WHO)還發(fā)布了全新指南,概述了多模態(tài)大模型在醫(yī)療衛(wèi)生領(lǐng)域的五大應(yīng)用場(chǎng)景:診斷和臨床護(hù)理、患者自主使用、文書(shū)和行政工作、醫(yī)療和護(hù)理教育、科學(xué)研究和藥物研發(fā)。

圖片

另外,在教育領(lǐng)域,LMM的應(yīng)用也是比比皆是。

比如GPT-4加持的可汗學(xué)院AI機(jī)器人Khanmio能夠?yàn)閷W(xué)生提供個(gè)性化輔導(dǎo),還有專(zhuān)注數(shù)學(xué)的WolframAlpha能夠生成可視化的解題步驟。

未來(lái),多模態(tài)大模型通過(guò)結(jié)合文本、圖像和音頻,能夠創(chuàng)造更加身臨其境的學(xué)習(xí)體驗(yàn)。

圖片

多模態(tài)大模型無(wú)縫集成了文本、圖像、音頻不同的模態(tài),將會(huì)為醫(yī)療保健、教育、藝術(shù)和個(gè)性化推薦領(lǐng)域的變革性應(yīng)用打開(kāi)了大門(mén)。

綜上,我們可以得到這樣一個(gè)結(jié)論——LMM是人工智能的未來(lái),更是邁向人工通用智能的墊腳石。

顯然,阿里正在走一條非常正確的路。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-09-26 11:58:07

2024-03-27 13:32:00

AI數(shù)據(jù)

2024-01-30 20:36:09

GPT-4羊駝代碼

2023-10-19 09:32:45

自動(dòng)駕駛技術(shù)

2024-02-06 09:00:00

GPT-4VLLaVA大型語(yǔ)言

2024-09-18 10:40:00

AI生成

2024-01-03 12:56:39

2023-12-29 09:55:03

視覺(jué)模型

2024-08-30 14:35:00

2024-07-23 09:48:59

2024-04-07 13:39:55

2025-01-09 09:56:34

視覺(jué)模型圖像生成

2023-10-31 15:26:02

阿里云通義千問(wèn)

2024-01-22 06:40:00

模型視覺(jué)

2018-01-11 15:15:13

2024-09-26 07:54:45

阿里視覺(jué)語(yǔ)言模型

2025-02-24 08:10:00

2023-10-16 09:23:24

自動(dòng)駕駛技術(shù)

2023-10-23 12:28:18

AI訓(xùn)練

2024-06-27 13:10:21

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)