自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

杭電小哥搶先搞定GPT讀圖功能,單卡就能實(shí)現(xiàn)新SOTA,代碼已開(kāi)源

人工智能 新聞
目前該論文已經(jīng)被CVPR2023接收。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

能讀圖的GPT-4震撼發(fā)布了!但要用它還得排隊(duì)。。。

不如先試試這個(gè)~

加上一個(gè)小模型,就能讓ChatGPT、GPT-3這類目前只能理解文本的大語(yǔ)言模型輕松讀圖,各種刁鉆的細(xì)節(jié)問(wèn)題都能手拿把掐。

并且訓(xùn)練這個(gè)小模型單卡(一塊RTX 3090)就能搞定。

效果呢,直接看圖。

比如說(shuō),給訓(xùn)練后的GPT-3輸入一張“音樂(lè)現(xiàn)場(chǎng)”的圖片,問(wèn)它:現(xiàn)場(chǎng)在舉辦什么活動(dòng)?

圖片

毫不遲疑,GPT-3給出了音樂(lè)會(huì)的答案。

再來(lái)加點(diǎn)難度,再給GPT-3醬紫的一張照片,讓它來(lái)分辨照片中的簾子是什么類型的材質(zhì)。

圖片

GPT-3:蕾絲。

Bingo!(看來(lái)是有點(diǎn)兒東西在身上的)

這個(gè)方法呢,是杭州電子科技大學(xué)和合肥工業(yè)大學(xué)的一個(gè)團(tuán)隊(duì)的最新成果:Prophet,半年前他們就已經(jīng)著手進(jìn)行這項(xiàng)工作。

論文一作是杭電研究生邵鎮(zhèn)煒,他在1歲那年被診斷患有“進(jìn)行性脊肌萎縮癥”,高考時(shí)遺憾與浙大擦肩,選擇了離家近的杭州電子科技大學(xué)。

目前該論文已經(jīng)被CVPR2023接收。

圖片

跨模態(tài)任務(wù)上達(dá)到新SOTA

話不多說(shuō),直接來(lái)看在Prophet這種方法的加持下GPT-3的讀圖能力。

我們先來(lái)看看它在數(shù)據(jù)集上的測(cè)試結(jié)果。

研究團(tuán)隊(duì)在兩個(gè)基于外部知識(shí)的視覺(jué)問(wèn)答數(shù)據(jù)集OK-VQA和A-OKVQA測(cè)試了Prophet,均創(chuàng)造了新SOTA。

圖片


圖片

更具體點(diǎn),在OK-VQA數(shù)據(jù)集上,和Deepmind的擁有80B參數(shù)的大模型Flamingo對(duì)比,Prophet達(dá)到了61.1%的準(zhǔn)確率,成功擊敗Flamingo(57.8%)。

并且在所需要的算力資源上,Prophet也是“吊打”Flamingo。

Flamingo-80B需要在1536塊TPUv4顯卡上訓(xùn)練15天,而Prophet只需要一塊RTX-3090顯卡訓(xùn)練VQA模型4天,再調(diào)用一定次數(shù)的OpenAI API即可。

圖片

其實(shí),類似Prophet這種幫助GPT-3處理跨模態(tài)任務(wù)的方法之前也有,比如說(shuō)PICa,以及之后的KAT和REVIVE。

不過(guò)它們?cè)谝恍┘?xì)節(jié)問(wèn)題的處理中,可能就不盡如人意。

舉個(gè)栗子,讓它們一起讀下面這張圖,然后回答問(wèn)題:圖片中的樹(shù)會(huì)結(jié)什么水果?

圖片

而PICa、KAT和REVIVE從圖片中提取到的信息只有:一群人在廣場(chǎng)上走路,完全忽略掉了后面還有一顆椰子樹(shù)。最終給出的答案也只能靠瞎猜。

而Prophet這邊,就不會(huì)出現(xiàn)這種情況,它解決了上述方法提取圖片信息不充分的問(wèn)題,進(jìn)一步激發(fā)了GPT-3的潛能。

圖片

那Prophet是怎么做的呢?

小模型+大模型

有效提取信息,并準(zhǔn)確回答問(wèn)題,能做到這些Prophet依賴的是它獨(dú)特的兩階段框架。

這兩個(gè)階段也分工明確:

  • 第一階段:根據(jù)問(wèn)題給出一些具有啟發(fā)性的答案;
  • 第二階段:這些答案會(huì)縮一些范圍,使GPT-3有充分的空間發(fā)揮潛能。

首先是第一階段,研究團(tuán)隊(duì)針對(duì)特定的外部知識(shí)VQA數(shù)據(jù)集訓(xùn)練了一個(gè)改進(jìn)的MCAN模型(一個(gè)VQA模型)。

訓(xùn)練好模型后,從中提取兩種具有啟發(fā)性的答案:答案候選和答案感知示例。

其中,答案候選是以模型分類層輸出的置信度為依據(jù)對(duì)答案進(jìn)行排序,選取里面的top10。

答案感知示例時(shí)指,將模型分類層之前的特征作為樣本的潛在答案特征,這個(gè)特征空間中最相近的標(biāo)注樣本。

圖片

接下來(lái)就是第二階段,這一步相對(duì)來(lái)說(shuō)就很簡(jiǎn)單粗暴了。

講上一步得到的“啟發(fā)性答案”組織到prompt中,然后再將prompt輸入給GPT-3,在一定的提示之下完成視覺(jué)問(wèn)答問(wèn)題。

不過(guò)雖然上一步已經(jīng)給出一些答案提示,但這并不意味著GPT-3就要局限在這些答案中。

若提示給出的答案置信度太低或者正確答案并不在那些提示中,GPT-3完全完全有可能生成新的答案。

圖片

研究團(tuán)隊(duì)

當(dāng)然,除了研究成果外,這項(xiàng)研究背后的團(tuán)隊(duì)也不得不提。

第一作者邵鎮(zhèn)煒在1歲時(shí)就確診“進(jìn)行性脊肌萎縮癥”,是肢體一級(jí)殘疾,沒(méi)有生活自理能力,生活和學(xué)習(xí)需要母親的全程照顧。

圖片

不過(guò)雖然身體受限,但邵鎮(zhèn)煒對(duì)知識(shí)的渴求并沒(méi)有減弱。

2017年高考他拿下644分的高分,以第一名的成績(jī)被杭州電子科技大學(xué)計(jì)算機(jī)專業(yè)錄取。

期間還獲得2018年中國(guó)大學(xué)生自強(qiáng)之星、2020年度國(guó)家獎(jiǎng)學(xué)金和2021年度浙江省優(yōu)秀畢業(yè)生等榮譽(yù)。

本科期間,邵鎮(zhèn)煒就已經(jīng)開(kāi)始跟著余宙教授進(jìn)行科研活動(dòng)。

2021年,邵鎮(zhèn)煒在準(zhǔn)備研究生推免時(shí)與浙大擦肩,于是留校加入了余宙教授課題組攻讀碩士研究生,目前他在讀研二,研究方向是跨模態(tài)學(xué)習(xí)。

余宙教授則是本次研究論文的二作以及通訊作者,他是杭電計(jì)算機(jī)學(xué)院最年輕的教授,教育部“復(fù)雜系統(tǒng)建模與仿真”實(shí)驗(yàn)室副主任。

長(zhǎng)期以來(lái),余宙專攻多模態(tài)智能方向,曾帶領(lǐng)研究團(tuán)隊(duì)多次獲得國(guó)際視覺(jué)問(wèn)答挑戰(zhàn)賽VQA Challenge的冠亞軍。

圖片

研究團(tuán)隊(duì)的大部分成員都在杭電媒體智能實(shí)驗(yàn)室(MIL)。

該實(shí)驗(yàn)室由國(guó)家杰青俞俊教授負(fù)責(zé),近年來(lái)實(shí)驗(yàn)室圍繞多模態(tài)學(xué)習(xí)方向發(fā)表一系列高水平期刊會(huì)議論文(TPAMI、IJCV、CVPR等),多次獲得IEEE期刊會(huì)議的最佳論文獎(jiǎng)。

實(shí)驗(yàn)室主持國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目等國(guó)家級(jí)項(xiàng)目20余項(xiàng),曾獲得過(guò)浙江省自然科學(xué)一等獎(jiǎng),教育自然科學(xué)二等獎(jiǎng)。


責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2021-06-21 10:18:50

美團(tuán)阿里云盤(pán)

2024-09-14 09:29:37

2023-03-15 10:35:16

GPTAI

2025-02-10 08:30:00

2023-06-13 13:53:00

GPT-4識(shí)圖微軟

2024-08-19 08:45:00

開(kāi)源模型

2023-11-03 11:04:52

ChatGPT背包問(wèn)題

2024-01-31 09:38:23

AI模型

2024-05-08 13:41:31

OpenAIA/B測(cè)試

2021-06-30 10:43:35

云系統(tǒng)架構(gòu)代碼

2024-04-17 12:20:51

腦機(jī)接口深度學(xué)習(xí)人工智能

2021-09-08 11:02:32

Java代碼圖片

2025-02-26 12:30:00

2023-01-05 13:11:20

模型

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2021-11-08 12:45:54

微軟代碼功能

2023-04-20 14:43:38

Linux模型GPT4

2021-08-30 15:41:23

代碼開(kāi)源微軟

2024-01-19 12:51:00

AI數(shù)據(jù)

2023-02-20 09:45:32

技術(shù)AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)