自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

試過GPT-4V后,微軟寫了個(gè)166頁的測評報(bào)告,業(yè)內(nèi)人士:高級用戶必讀

人工智能 新聞
這篇由微軟撰寫的報(bào)告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潛力的人,都值得一讀。

一周之前,ChatGPT迎來重大更新,不管是 GPT-4 還是 GPT-3.5 模型,都可以基于圖像進(jìn)行分析和對話。與之對應(yīng)的,多模態(tài)版GPT-4V模型相關(guān)文檔也一并放出。當(dāng)時(shí) OpenAI 放出的文檔只有18頁,很多內(nèi)容都無從得知,對于想要更深入了解GPT-4V應(yīng)用的人來說,難度還是相當(dāng)大的。

短短幾天時(shí)間,當(dāng)大家還在死磕OpenAI 放出的18頁文檔時(shí),微軟就公布了一份長達(dá)166頁的報(bào)告,定性地探討了GPT-4V的功能和使用情況。

報(bào)告地址:https://arxiv.org/pdf/2309.17421.pdf

MedARC(醫(yī)療人工智能研究中心)聯(lián)合創(chuàng)始人兼CEO Tanishq Mathew Abraham表示,「這篇報(bào)告將是GPT-4V高級用戶的必讀之作。」


圖片

該報(bào)告共分為11個(gè)章節(jié),重點(diǎn)是對最新模型 GPT-4V(ision)進(jìn)行分析,以加深大眾對 LMM(大型多模態(tài)模型) 的理解。文章用很大篇幅介紹了GPT-4V可以執(zhí)行的任務(wù),包括用測試樣本來探索GPT-4V的質(zhì)量和通用性,現(xiàn)階段GPT-4V能夠支持的輸入和工作模式,以及提示模型的有效方法。

在探索 GPT-4V 的過程中,該研究還精心策劃組織了涵蓋各個(gè)領(lǐng)域和任務(wù)的一系列定性樣本。對這些樣本的觀察表明,GPT-4V 在處理任意交錯(cuò)的多模態(tài)輸入方面具有前所未有的能力,并且其功能的通用性使 GPT-4V 成為強(qiáng)大的多模態(tài)通用系統(tǒng)。 

此外,GPT-4V 對圖像獨(dú)特的理解能力可以催生新的人機(jī)交互方法,例如視覺參考提示(visual referring prompting)。報(bào)告最后深入討論了基于 GPT-4V 的系統(tǒng)的新興應(yīng)用場景和未來研究方向。該研究希望這一初步探索能夠激發(fā)未來對下一代多模態(tài)任務(wù)制定的研究,開發(fā)和增強(qiáng) LMM 解決現(xiàn)實(shí)問題的新方法,并更好地理解多模態(tài)基礎(chǔ)模型。

下面我們逐一介紹每個(gè)章節(jié)的具體內(nèi)容。

論文概覽

論文第一章介紹了整個(gè)研究的基本情況。作者表示,他們對GPT-V4的探討主要在以下幾個(gè)問題的指導(dǎo)下進(jìn)行:

1、GPT-4V 支持哪些輸入和工作模式?多模態(tài)模型的通用性必然要求系統(tǒng)能夠處理不同輸入模態(tài)的任意組合。GPT-4V 在理解和處理任意混合的輸入圖像、子圖像、文本、場景文本和視覺指針方面表現(xiàn)出了前所未有的能力。他們還證明,GPT-4V 能夠很好地支持在 LLM 中觀察到的test-time技術(shù),包括指令跟隨、思維鏈、上下文少樣本學(xué)習(xí)等。

2、GPT-4V 在不同領(lǐng)域和任務(wù)中表現(xiàn)出的質(zhì)量和通用性如何?為了了解 GPT-4V 的能力,作者對涵蓋廣泛領(lǐng)域和任務(wù)的查詢進(jìn)行了采樣,包括開放世界視覺理解、視覺描述、多模態(tài)知識、常識、場景文本理解、文檔推理、編碼、時(shí)間推理、抽象推理、情感理解等。GPT-4V 在許多實(shí)驗(yàn)領(lǐng)域都表現(xiàn)出了令人印象深刻的人類水平的能力。

3、使用和提示 GPT-4V 的有效方法是什么?GPT-4V 能夠很好地理解像素空間編輯,例如在輸入圖像上繪制的視覺指針和場景文本。受這種能力的啟發(fā),研究者討論了「視覺參考提示」,它可以直接編輯輸入圖像以指示感興趣的任務(wù)。視覺參考提示可與其他圖像和文本提示無縫結(jié)合使用,為教學(xué)和示例演示提供了一個(gè)細(xì)致入微的界面。

4、未來的發(fā)展方向是什么?鑒于 GPT-4V 在跨領(lǐng)域和跨任務(wù)方面的強(qiáng)大能力,我們不禁要問,多模態(tài)學(xué)習(xí)乃至更廣泛的人工智能的下一步是什么?作者將思考和探索分為兩個(gè)方面,即需要關(guān)注的新出現(xiàn)的應(yīng)用場景,以及基于 GPT-4V 系統(tǒng)的未來研究方向。他們介紹了他們的初步探索結(jié)果,以啟發(fā)未來的研究。

GPT-4V的輸入模式

論文第二章總結(jié)了GPT-4V支持的輸入,分為純文本、單個(gè)圖像-文本對、交錯(cuò)圖像-文本輸入(如圖1)三種情況。

圖片

GPT-4V的工作模式和提示技術(shù)

論文第三章總結(jié)了GPT-4V的工作模式和提示技術(shù),包括:

1、遵循文字說明:

圖片

2、視覺指向和視覺參考提示:

圖片


圖片

3、視覺+文本提示:

圖片

4、上下文少樣本學(xué)習(xí):

圖片

圖片

圖片

視覺-語言能力

論文第四章研究了如何利用 GPT-4V 來理解和解釋視覺世界。

首先4.1節(jié)探討了GPT-4V對不同域圖像的識別能力,包括識別不同的名人,并能詳細(xì)描述名人的職業(yè)、行為、背景、事件等信息。

除了識別名人外,GPT-4V能準(zhǔn)確識別測試圖像中的地標(biāo),還能產(chǎn)生生動而詳細(xì)的敘述,從而捕捉地標(biāo)的特性。

GPT-4V還可以識別各種菜肴,并給出菜肴中的特定成分,裝飾物或烹飪技術(shù)。

除此以外,GPT-4V還可以識別常見的疾病,例如其能根據(jù)肺部的CT掃描指出潛在的問題,又或者對給定的x光片中的牙齒和頜骨,解釋下頜左下方和右側(cè)部分出現(xiàn)的智齒可能需要切除;GPT-4V能正確識別徽標(biāo),并提供詳細(xì)的描述,包括其設(shè)計(jì),顏色,形狀和符號;如果提示中出現(xiàn)的問題與照片不符,GPT-4V也能進(jìn)行反事實(shí)推理。

4.2節(jié)探討了GPT-4V對目標(biāo)的定位、計(jì)數(shù)和密集字幕生成。

下圖表明GPT-4V能夠理解圖像中人與物體之間的空間關(guān)系,例如識別飛盤和人之間的空間關(guān)系。

GPT-4V能夠確定圖像中指定物體的數(shù)量,下圖表明GPT-4V成功地計(jì)算出圖像中出現(xiàn)的物體的數(shù)量,如蘋果、橘子和人。

GPT-4V成功地定位和識別圖像中的個(gè)體,然后為每個(gè)個(gè)體提供簡潔的描述。

4.3節(jié)介紹了GPT-4V能夠進(jìn)行多模態(tài)理解以及對常識的掌握能力。下圖展示了GPT-4V能夠解釋笑話和梗圖:

GPT-4V能夠回答科學(xué)問題:

GPT-4V還能進(jìn)行多模態(tài)常識推理:

4.4節(jié)介紹了GPT-4V對場景文本、表格、圖表和文檔的推理能力。

GPT-4V可以進(jìn)行數(shù)學(xué)推理:

理解流程圖:

理解表格細(xì)節(jié):

GPT-4V還能閱讀一份多頁的技術(shù)報(bào)告,理解每個(gè)部分的內(nèi)容,并對該技術(shù)報(bào)告進(jìn)行總結(jié):

4.5節(jié)介紹了GPT-4V對多語言多模態(tài)的理解。

GPT-4V能夠生成不同語言的圖像描述:

GPT-4V對多語言文本識別、翻譯和描述的結(jié)果:

4.6節(jié)介紹了GPT-4V的編碼能力。

基于手寫數(shù)學(xué)方程生成LaTeX代碼的能力:

GPT-4V生成Markdown/LaTex代碼以重建圖像中表的能力:

圖片

GPT-4V編寫代碼以復(fù)制輸入圖形的能力:

圖片

與人類的互動:視覺參考提示

在與多模態(tài)系統(tǒng)的人機(jī)交互中,指向特定空間位置是一項(xiàng)基本能力,例如進(jìn)行基于視覺的對話。第 5.1 節(jié)顯示,GPT-4V 可以很好地理解直接畫在圖像上的視覺指針。基于這一觀察結(jié)果,研究者提出了一種名為「視覺參考提示(visual referring prompting)」的新型模型交互方法。如圖 50 所示,其核心思想是直接編輯圖像像素空間,繪制視覺指針或場景文本,作為人類的參照指示。作者在第 5.2 節(jié)詳細(xì)介紹了這種方法的用途和優(yōu)勢。

圖片

圖片

圖片

圖片

最后,他們在第 5.3 節(jié)探討了如何讓 GPT-4V 生成視覺指針輸出,以便與人類互動。這些視覺指針對于人類和機(jī)器來說都能直觀地生成和理解,是人機(jī)交互的良好渠道。

時(shí)間和視頻理解

在第六章,作者討論了GPT4V 的時(shí)間和視頻理解能力。盡管 GPT4V 主要以圖像作為輸入,但評估其對時(shí)間序列和視頻內(nèi)容的理解能力仍然是對其整體評估的一個(gè)重要方面。這是因?yàn)楝F(xiàn)實(shí)世界中的事件會隨著時(shí)間的推移而展開,而人工智能系統(tǒng)理解這些動態(tài)過程的能力在現(xiàn)實(shí)世界的應(yīng)用中至關(guān)重要。時(shí)序預(yù)測、時(shí)序排序、時(shí)序定位、時(shí)序推理和基礎(chǔ)時(shí)序理解等能力有助于衡量模型在一系列靜態(tài)圖像中理解事件順序、預(yù)測未來事件發(fā)生和分析隨時(shí)間變化的活動的能力。

盡管 GPT-4V 以圖像為中心,但它能夠以類似人類理解的方式理解視頻和時(shí)間序列。為了提高像 GPT-4V 這樣復(fù)雜的人工智能模型的通用性和適用性,這方面的測試對其發(fā)展和完善至關(guān)重要。

在這一章的實(shí)驗(yàn)中,研究者使用了多個(gè)選定的視頻幀作為輸入,以測試模型在理解時(shí)間序列和視頻內(nèi)容方面的能力。

多圖像序列

圖片

視頻理解

圖片

圖片

圖片

基于時(shí)間理解的視覺參考提示

圖片

視覺推理與智商測試

對抽象視覺刺激和符號的理解和推理是人類智能的一項(xiàng)基本能力。論文第七章測試了GPT-4V是否可以從視覺信號中抽象語義,并可以執(zhí)行不同類型的人類智商(IQ)測試。

抽象視覺刺激

圖片

部件和物體的發(fā)現(xiàn)與關(guān)聯(lián)

圖片

韋氏成人智力量表

圖片

瑞文推理測驗(yàn)

圖片

圖片

情商測驗(yàn)

在與人類互動時(shí),GPT-4V 必須具備同理心和情商(EQ),以理解和分享人類的情感。受人類情商測試定義的啟發(fā),作者研究了 GPT-4V 在以下方面的能力:從人的面部表情中識別和解讀人的情緒;理解不同的視覺內(nèi)容如何激發(fā)情緒;根據(jù)所需的情緒和情感生成適當(dāng)?shù)奈谋据敵觥?/span>

從面部表情中讀出情感

圖片

理解視覺內(nèi)容如何激發(fā)情感

圖片

圖片

情緒條件輸出

圖片

新興應(yīng)用亮點(diǎn)

這一章展示了 GPT-4V 的卓越功能可能帶來的無數(shù)高價(jià)值應(yīng)用場景和新用例。誠然,其中一些應(yīng)用場景可以通過精心策劃用于微調(diào)現(xiàn)有視覺和語言(VL)模型的訓(xùn)練數(shù)據(jù)來實(shí)現(xiàn),但作者想強(qiáng)調(diào)的是,GPT-4V 的真正威力在于它能夠毫不費(fèi)力地實(shí)現(xiàn)開箱即用。此外,他們還介紹了 GPT-4V 如何與外部工具和插件無縫集成,從而進(jìn)一步拓展其潛力,實(shí)現(xiàn)更多創(chuàng)新和協(xié)作應(yīng)用。

找不同

圖片

圖片

工業(yè)

圖片

圖片

圖片


圖片

圖片

醫(yī)藥

圖片

圖片

圖片

圖片

汽車保險(xiǎn)

圖片

圖片

編寫照片說明

圖片

圖片

圖像理解與生成

圖片

圖片

圖片

圖片

具身智能體

圖片

圖片

圖片

圖片

圖形用戶界面(GUI)交互

圖片

圖片

基于LLM的智能體

論文第十章討論了 GPT-4V 未來可能的研究方向,重點(diǎn)是 LLM 中的有趣用法如何擴(kuò)展到多模態(tài)場景。

基于ReAct的GPT-4V多模態(tài)鏈擴(kuò)展:

圖片

使用自我反思來改進(jìn)文本到圖像模型SDXL生成的文本提示的示例:

圖片

自洽性:

圖片

檢索增強(qiáng)LMM,圖74顯示了一個(gè)檢索增強(qiáng)的LMM幫助雜貨店結(jié)帳的示例。

圖片

關(guān)于GPT-4V的更多場景應(yīng)用細(xì)節(jié),請查看原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-11-15 13:15:47

AI模型

2009-12-03 15:32:05

Visual Stud

2021-05-14 13:49:01

區(qū)塊鏈穩(wěn)定幣金融

2017-02-13 21:49:52

大數(shù)據(jù)政府?dāng)?shù)據(jù)大數(shù)據(jù)產(chǎn)業(yè)

2023-10-05 12:16:37

2023-11-13 18:19:35

AI訓(xùn)練

2020-05-26 15:16:44

5G兩會全息

2012-06-04 16:20:13

社交新模式

2024-05-30 16:25:25

2009-02-04 13:43:51

10美元筆記本廉價(jià)

2021-12-13 09:47:04

芯片半導(dǎo)體技術(shù)

2022-09-26 11:23:41

AI項(xiàng)目ROI數(shù)字

2021-05-17 09:14:29

黑客組織DarkSide網(wǎng)絡(luò)安全

2022-09-19 10:42:22

?數(shù)據(jù)科學(xué)安全開源軟件

2023-11-05 15:13:38

AI測評

2024-08-27 14:20:00

2023-12-22 12:41:01

模型訓(xùn)練

2021-01-06 16:37:17

5G網(wǎng)絡(luò)運(yùn)營商

2024-02-06 09:00:00

GPT-4VLLaVA大型語言
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號