Gemini vs GPT-4V到底哪家強(qiáng)?視覺-語言模型的全面比較和結(jié)合使用
本文經(jīng)自動(dòng)駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
概括
大家好,我是戚張揚(yáng),目前就讀于香港大學(xué),今天和大家分享一篇我們關(guān)于視覺語言模型最新的研究,這篇論文提供了對谷歌的Gemini和OpenAI的GPT-4V(ision)兩個(gè)SOTA模型的深入定性比較研究。我們的研究涉及到對這兩個(gè)模型在視覺語言能力、與人類的互動(dòng)、時(shí)間理解以及智力和情感智商等關(guān)鍵維度上的多方面評估。完整的例子和論文請見Arxiv Paper (115 pages)。
論文鏈接:https://arxiv.org/abs/2312.15011
Gemini的獨(dú)特輸入模式
我們的目標(biāo)是澄清Gemini的輸入模式。GPT-4V的輸入模式支持連續(xù)攝入多個(gè)圖像作為上下文,因此具有增強(qiáng)的記憶能力。然而,對于Gemini,它的獨(dú)特屬性體現(xiàn)在以下幾個(gè)方面:
- 單圖像輸入。 Gemini一次只能輸入一張圖像。此外,它無法處理獨(dú)立的圖像;相反,它需要附帶的文本說明。
- 有限的記憶容量。 與GPT-4V不同,Gemini的多模塊缺乏保留過去圖像輸入和輸出記憶的能力。因此,在處理多個(gè)圖像時(shí),我們的方法需要將所有圖像合并為單一圖像輸入。除非另有明示說明,否則將使用這種綜合輸入模式。
- 敏感信息屏蔽。 當(dāng)處理包含明確的面部或醫(yī)療信息的圖像時(shí),Gemini在一定程度上表現(xiàn)出模糊處理,無法識別這些圖像。這可能對其泛化能力造成一定限制。
- 圖像和鏈接輸出。 與僅能生成文本輸出的GPT-4V不同,Gemini具有創(chuàng)建與內(nèi)容相關(guān)的圖像并提供相應(yīng)鏈接的能力。這建立了一種類似于搜索引擎功能的更高級的關(guān)聯(lián)。
- 視頻輸入和理解。 Gemini展示了理解視頻的能力,需要YouTube鏈接作為視頻輸入。需要注意的是,它可以有效處理附帶準(zhǔn)確字幕文件的視頻。然而,在處理單一、簡單和信息稀缺的視頻時(shí),其理解能力可能受到限制。
Contents
五個(gè)方面的比較:
第節(jié)到第節(jié) 將多模態(tài)評估分為五個(gè)方面。第一級涉及對圖像及其中文本的基本識別。第二級超越了識別,需要進(jìn)一步的推理和推斷。第三級包括多模態(tài)理解和涉及多個(gè)圖像的推理。
- 第節(jié):圖像識別與理解。 它涉及對圖像內(nèi)容的基本識別和理解,不涉及進(jìn)一步的推理,包括識別地標(biāo)、食物、標(biāo)志、抽象圖像、自動(dòng)駕駛場景、虛假信息檢測、發(fā)現(xiàn)差異和物體計(jì)數(shù)等任務(wù)。
- 第節(jié):圖像中的文本識別與理解。 它集中在圖像中的文本識別(包括OCR),如場景文本、數(shù)學(xué)公式和圖表及表格文本識別等。同樣,在這里不進(jìn)行文本內(nèi)容的進(jìn)一步推斷。
- 第節(jié):圖像推理能力。 超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。
- 第節(jié):圖像中的文本推理。 在文本識別的基礎(chǔ)上,它涉及超越文本識別的進(jìn)一步推理,包括數(shù)學(xué)問題解決、圖表信息推理以及紙張、報(bào)告和圖形設(shè)計(jì)等文檔理解。
- 第節(jié):圖像和文本的綜合理解。 它評估涉及圖像和文本的集體理解和推理能力。例如,任務(wù)包括從超市購物車中挑選物品,以及指導(dǎo)和修改圖像生成等。
三項(xiàng)專業(yè)任務(wù):
第節(jié)到第節(jié) 評估了三項(xiàng)專業(yè)任務(wù)的性能,即對象定位、時(shí)間理解和多語言理解。
- 第節(jié):物體定位。 強(qiáng)調(diào)對象定位能力,要求模型提供指定對象的相對坐標(biāo)。這包括關(guān)注室外物體,如停車場中的汽車和抽象圖像定位。
- 第節(jié):時(shí)間視頻理解。 通過關(guān)鍵幀評估模型對時(shí)間性的理解。這一部分包括兩項(xiàng)任務(wù):一項(xiàng)涉及對視頻序列的理解,另一項(xiàng)關(guān)注關(guān)鍵幀的排序。
- 第節(jié):多語言能力。 它全面評估在識別、理解和生成多種語言內(nèi)容方面的能力。這包括在圖像中識別非英語內(nèi)容和以其他語言表達(dá)信息的能力。
行業(yè)應(yīng)用:
第節(jié) 展示了多模態(tài)大型模型的各種應(yīng)用場景。我們旨在向行業(yè)展示更多可能性,提供創(chuàng)新的思路??梢愿鶕?jù)特定領(lǐng)域的需求定制多模態(tài)大型模型。在這里,我們展示了七個(gè)子領(lǐng)域:
- 第節(jié):應(yīng)用:缺陷檢測。 這項(xiàng)任務(wù)涉及檢測工業(yè)裝配線上產(chǎn)品的缺陷,包括紡織品、金屬零件、藥品等。
- 第節(jié):應(yīng)用:雜貨結(jié)賬。 這指的是超市的自動(dòng)結(jié)賬系統(tǒng),旨在識別購物車中的所有物品以進(jìn)行結(jié)賬。目標(biāo)是全面識別購物車內(nèi)的所有物品。
- 第節(jié):應(yīng)用:汽車保險(xiǎn)。 這項(xiàng)任務(wù)涉及評估車禍中的損壞程度,并提供大致的維修成本,以及提供維修建議。
- 第節(jié):應(yīng)用:定制字幕生成器。 目標(biāo)是在場景中識別各種對象的相對位置,提前提供對象名稱作為條件和提示。
- 第節(jié):應(yīng)用:評估圖像生成。 這涉及評估生成圖像與給定文本提示之間的一致性,評估生成模型的質(zhì)量。
- 第節(jié):應(yīng)用:具身智能代理。 這個(gè)應(yīng)用涉及將模型部署在具體智能和智能家居系統(tǒng)中,為室內(nèi)情景提供思考和決策。
- 第節(jié):應(yīng)用:導(dǎo)航。 這項(xiàng)任務(wù)側(cè)重于指導(dǎo)用戶瀏覽PC/Mobile GUI界面,協(xié)助信息接收、在線搜索和購物任務(wù)。
Demos
第2節(jié):圖像識別與理解
對圖像內(nèi)容的基本識別和理解,不涉及進(jìn)一步的推理,包括識別地標(biāo)、食物、標(biāo)志、抽象圖像、自動(dòng)駕駛場景、虛假信息檢測、發(fā)現(xiàn)差異和物體計(jì)數(shù)等任務(wù)。屬于第一層最為基本的任務(wù)。一共有9個(gè)小節(jié)。
2.1 基本物體的識別
這里是測試模型基礎(chǔ)的物體識別和描述能力。GPT-4V和Gemini都能夠準(zhǔn)確識別基本物體并根據(jù)需要提供文本描述,并無顯著差異。
2.2 風(fēng)景名勝識別
雖然這兩個(gè)模型都擅長準(zhǔn)確識別地標(biāo),但GPT-4V生成簡潔的描述,而Gemini在旅游景點(diǎn)甚至室內(nèi)傾向于提供更詳細(xì)的敘述。甚至給出相應(yīng)的景點(diǎn)其他圖片和相關(guān)資料鏈接。
2.3 食品識別
這兩個(gè)模型都展現(xiàn)出識別廣泛種類的菜肴的能力,擴(kuò)展了它們對菜肴圖像中細(xì)節(jié)如配料、裝飾和烹飪技巧的識別能力。結(jié)論基本和風(fēng)景名勝一樣。
2.4 Logo識別
這兩個(gè)模型都成功識別了標(biāo)志并提供了全面的描述,捕捉了設(shè)計(jì)、顏色、形狀和符號表示等各個(gè)方面的信息。
2.5 抽象圖片識別
盡管GPT-4V提供了合理的回答,但Gemini提供的回答似乎不太符合邏輯。在識別七巧板這種抽象圖片中,Gemini的能力相對欠缺??赡苁怯捎谑撬袌D拼接輸入的結(jié)果。
2.6 室外場景理解(自動(dòng)駕駛)
這兩個(gè)模型都擅長提供場景自動(dòng)駕駛和物體的詳細(xì)描述。在第一個(gè)例子中,Gemini的描述展示了一個(gè)小錯(cuò)誤。
2.7 反事實(shí)示例(捏造物體)
這個(gè)意思是給定一張圖片。文字prompt中讓模型在圖片中尋找不存在的物體。我們發(fā)現(xiàn)這兩個(gè)模型都能夠提供與圖像中所呈現(xiàn)的場景和物體相關(guān)的事實(shí)性描述。
2.8 物體計(jì)數(shù)能力
任務(wù)是統(tǒng)計(jì)圖片中水果的數(shù)量。兩個(gè)模型在計(jì)數(shù)方面都有待提高。與GPT-4V相比,Gemini的計(jì)數(shù)能力相對較弱。由于Gemini的多模態(tài)記憶性能相對較弱,它無法被引導(dǎo)到正確的答案。
2.9 找不同的能力
這里是兩張圖片找不同的能力。GPT-4V和Gemini在找不同方面都有一定的局限。GPT-4V找不同的能力更強(qiáng)一些,更加準(zhǔn)確。
第3節(jié):圖像中的文本識別與理解
它集中在圖像中的文本識別(包括OCR),如場景文本、數(shù)學(xué)公式和圖表及表格文本識別等。同樣,在這里不進(jìn)行文本內(nèi)容的進(jìn)一步推斷。屬于第一層最為基本的任務(wù)。一共有9個(gè)小節(jié)。
3.1 場景文字識別
這里是從股市交易板,室外店鋪招牌等場景中去提取文字以及數(shù)字信息。這兩個(gè)模型都展現(xiàn)出在許多復(fù)雜情境下識別場景文本的熟練能力。
3.2 數(shù)學(xué)公式識別
這里是將圖片中的公式轉(zhuǎn)化為Latex格式,我們發(fā)現(xiàn)無論是GPT-4V還是Gemini在數(shù)學(xué)公式識別方面均較為欠缺。當(dāng)公式變復(fù)雜時(shí),都無法準(zhǔn)確讀出公式。
3.3 圖表信息識別
這里展示的是針對表格圖片的文字識別和提取。整體來說,這里GPT-4V的能力不如Gemini Pro。
第4節(jié):圖像推理能力
超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。這里屬于第二個(gè)層次即除了基本識別需要進(jìn)行進(jìn)一步的推理。一共有6個(gè)小節(jié)。
4.1 幽默信息理解(梗圖)
在幽默圖片理解方面。GPT-4V和Gemini都展現(xiàn)出了令人滿意的能力,可以理解嵌入在Memes中的幽默。
4.2 科學(xué)常識理解
GPT-4V和Gemini都能夠以理解科學(xué)的常識,并收集必要的信息來回答問題。在第一個(gè)例子中,Gemini的描述中存在遺漏。
4.3 偵探識別
這里的任務(wù)是給定一個(gè)房屋的圖片,去推理屋子主人的性格。GPT-4V和Gemini都能夠根據(jù)常識很好地推斷圖像。
4.4 圖片組合能力
這里是一個(gè)人用袋子裝扮自己的頭和身子。GPT-4V和Gemini都知道如何以合理的方式組合這三個(gè)部分。當(dāng)然,在這里GPT-4V提供了一個(gè)更令人滿意的答案,給出了三張子圖片組合成一張圖片的順序。
4.5 IQ測試(公務(wù)員考試:找規(guī)律)
對于Wechsler成人智力量表(WAIS)中的找規(guī)律問題,Gemini表現(xiàn)不佳。這表明它在識別和比較多個(gè)圖像方面的能力可能有限。
4.6 EQ測試(情緒理解和輸出)
在對于圖片所表達(dá)的情感上。GPT-4V和Gemini都理解不同的視覺內(nèi)容如何引發(fā)人類情感。
第5節(jié):圖像中的文本推理
超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。這里屬于第二個(gè)層次即除了基本識別需要進(jìn)行進(jìn)一步的推理。一共有3個(gè)小節(jié)。
5.1 解決數(shù)學(xué)題目
針對簡單的數(shù)學(xué)問題,GPT-4V和Gemini都能夠給出準(zhǔn)確的回答。
5.2 圖標(biāo)理解
這里我們展示的是針對流程圖的理解。這個(gè)例子中兩個(gè)模型都能夠?qū)⒘鞒虉D轉(zhuǎn)化為Python代碼。
5.3 文檔理解
這里展示的是一個(gè)公寓房屋的平面設(shè)計(jì)圖。這里兩個(gè)模型都給出了準(zhǔn)確的回答。但是Gemini的回答更加的完整,有條理。
第6節(jié):圖像和文本的綜合理解
超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。這里屬于第三個(gè)層次針對圖文的綜合性理解。一共有2個(gè)小節(jié)。
6.1 交錯(cuò)的圖像文本輸入
這個(gè)圖像涉及輸入多張賬單并計(jì)算其中的稅款。GPT-4V可以準(zhǔn)確提供輸出,而Gemini對于連接在一起的圖像的回答不令人滿意。然而,它在為每張圖像提供個(gè)別答案方面表現(xiàn)良好。
6.2 針對圖像生成的識別的評分
通過自我反思來改進(jìn)文本到圖像模型SDXL的生成文本提示,GPT-4V反映出了初始提示中沒有提及狗的品種的錯(cuò)誤,并做出了正確的修訂。而Gemini生成的文本提示更好,提到了狗的品種。
第7節(jié):物體定位
強(qiáng)調(diào)對象定位能力,要求模型提供指定對象的相對坐標(biāo)(左上角和右下角的坐標(biāo))。這包括關(guān)注室外物體,如停車場中的汽車和抽象圖像定位。一共有2個(gè)小節(jié)。
7.1 現(xiàn)實(shí)世界中的物體定位
這里是針對識別出停車場中的一個(gè)汽車。在這之前我們給出了一個(gè)啤酒瓶定位的例子。GPT-4V和Gemini都能夠理解坐標(biāo)以生成視覺指示輸出。
7.2 抽象圖像定位
這里是針對指出抽象物體七巧板中的一個(gè)部分的位置。通過提示它們輸出定位框的角點(diǎn),GPT-4V可以定位到抽象鵝的頭部,而Gemini在這種情況下未能成功。
第8節(jié):時(shí)間視頻理解
通過關(guān)鍵幀評估模型對時(shí)間性的理解。這一部分包括兩項(xiàng)任務(wù):一項(xiàng)涉及對視頻序列的理解,另一項(xiàng)關(guān)注關(guān)鍵幀的排序。一共有2個(gè)小節(jié)。
8.1 時(shí)序動(dòng)作識別
在給定一系列連續(xù)動(dòng)作的情況下,GPT-4V和Gemini都能夠生成正確的理解。
8.2 關(guān)鍵幀排序
壽司制作過程是無序的,只有GPT4-V能夠找到正確的順序,而Gemini在這種情況下失敗了。
第9節(jié):多語言能力
它全面評估在識別、理解和生成多種語言內(nèi)容方面的能力。這包括在圖像中識別非英語內(nèi)容和以其他語言表達(dá)信息的能力。一共有2個(gè)小節(jié)。
9.1 圖片多語言理解輸出
GPT-4V和Gemini都能夠用不同的語言描述圖像。
9.2 多語言場景文字理解
GPT-4V和Gemini都可以識別這三張圖片中的場景文本。
第10節(jié):應(yīng)用
展示了多模態(tài)大型模型的各種應(yīng)用場景。我們旨在向行業(yè)展示更多可能性,提供創(chuàng)新的思路??梢愿鶕?jù)特定領(lǐng)域的需求定制多模態(tài)大型模型。在這里,我們展示了七個(gè)子領(lǐng)域。
10.1 應(yīng)用:缺陷檢測
這里是進(jìn)行工業(yè)流水線上進(jìn)行缺陷檢測。這兩個(gè)模型都能夠相當(dāng)準(zhǔn)確地檢測圖像中物體的缺陷。然而,值得注意的是,在這類任務(wù)中,Gemini提供了更多的細(xì)節(jié)。
10.2 應(yīng)用:雜貨結(jié)賬
這里是超市自助收銀的應(yīng)用。雖然GPT-4V提供了更全面和詳細(xì)的結(jié)果,但也存在一些錯(cuò)誤。另一方面,Gemini只識別了四個(gè)對象,但是識別是正確的,甚至為每個(gè)項(xiàng)目都包括了相應(yīng)的圖像。這表明,雖然GPT-4V在發(fā)現(xiàn)方面提供了廣度,但Gemini提供了準(zhǔn)確性,在執(zhí)行這類任務(wù)時(shí)展示了不同的優(yōu)勢。
10.3 應(yīng)用:汽車保險(xiǎn)
這里是進(jìn)行車禍現(xiàn)場的損傷程度判斷。兩者都展示了他們執(zhí)行全面、詳細(xì)和準(zhǔn)確的損傷評估的能力。
10.4 應(yīng)用:定制字幕生成器
這里是首先將單個(gè)物體的圖片和名稱輸入給模型作為prompt,之后再輸入一個(gè)完整的場景讓模型去描述其中各個(gè)物體的相對位置。GPT-4V提供了更全面、準(zhǔn)確和有條理的描述,而Gemini則表現(xiàn)不佳,未能識別左圖中蝸牛殼的存在,并錯(cuò)誤地描述了蝸牛的位置。這表明,雖然GPT-4V在提供詳細(xì)和精確的描述方面表現(xiàn)出色。
10.5 應(yīng)用:評估圖像生成
針對圖像生成文字prompt和生成圖片的匹配度測試。這兩個(gè)模型都準(zhǔn)確描述了圖像內(nèi)容并提供了相應(yīng)的解釋和一致的分?jǐn)?shù)。值得注意的是,Gemini為其評估提供了更詳細(xì)的理由。
10.6 應(yīng)用:具身智能代理
再Embodied AI的應(yīng)用上。GPT-4V提供了正確的回答,并附帶清晰而簡潔的解釋。相比之下,Gemini提供的回答完全不正確。
10.7 應(yīng)用:GUI導(dǎo)航
在這個(gè)例子中,我們給的是使用PC網(wǎng)絡(luò)搜索引擎去搜索麻婆豆腐的菜譜。這里是從剛開機(jī)的電腦界面一步步利用多模態(tài)模型進(jìn)行引導(dǎo)。這里我們僅僅給出了第一步。
第11節(jié):將GPT-4V和Gemini進(jìn)行結(jié)合
在本節(jié)中,我們探索如何將GPT-4V和Gemini進(jìn)行結(jié)合,利用他們各自的優(yōu)勢,一共有2個(gè)小節(jié)。
11.1 產(chǎn)品識別和推薦
我們首先使用GPT-4V來描述圖片中的所有物體,然后將GPT-4V的答案作為輸入的一部分,使用Gemini來推薦類似產(chǎn)品的鏈接。
11.2 多圖像識別和故事生成
我們首先使用GPT-4V來描述圖片中包含的所有場景,然后使用Gemini生成一個(gè)特定風(fēng)格的長篇故事。
Conclusions
我們已經(jīng)對GPT-4V和Gemini的多模態(tài)理解和推理能力進(jìn)行了全面的比較,涵蓋了多個(gè)方面,并得出了以下結(jié)論:
圖像識別與理解。 在基本圖像識別任務(wù)中,兩個(gè)模型表現(xiàn)出了可比較的性能,并能夠有效地完成任務(wù)。
圖像中的文本識別與理解。 兩個(gè)模型都擅長從圖像中提取和識別文本。然而,在復(fù)雜的公式和儀表盤識別方面還需要改進(jìn)。Gemini在讀取表格信息方面表現(xiàn)更好。
圖像推理能力。 在圖像推理方面,兩個(gè)模型都在常識理解方面表現(xiàn)出色。與GPT-4V相比,Gemini在尋找模式方面稍顯不足(智力測試)。在情感理解測試中,兩者都能理解情感并具有審美判斷能力。
圖像中的文本推理。 在文本推理領(lǐng)域,當(dāng)處理復(fù)雜的基于表格的推理和數(shù)學(xué)問題解決任務(wù)時(shí),Gemini表現(xiàn)出相對較低的性能水平。此外,Gemini傾向于提供更詳細(xì)的輸出。
綜合圖像和文本理解。 在涉及復(fù)雜文本和圖像的任務(wù)中,由于Gemini無法一次輸入多個(gè)圖像,它在某些方面落后于GPT-4V,盡管在處理單一圖像的文本推理方面與GPT-4V表現(xiàn)相似。
對象定位。 兩個(gè)模型在現(xiàn)實(shí)世界的對象定位方面表現(xiàn)相似,Gemini在抽象圖像(七巧板)的定位方面略遜一籌。
時(shí)間視頻理解。 在理解時(shí)間性方面,Gemini的單一圖像輸入模式在某些方面不及GPT-4V,特別是在理解序列方面。
多語言能力。 兩個(gè)模型都展現(xiàn)出良好的多語言識別、理解和輸出能力,能夠有效完成多語言任務(wù)。
在工業(yè)應(yīng)用方面,Gemini在具體智能代理和GUI導(dǎo)航方面不如GPT-4V,這也歸因于Gemini的單一圖像、非記憶輸入模式。結(jié)合這兩個(gè)大型模型可以發(fā)揮它們各自的優(yōu)勢??偟膩碚f,Gemini和GPT-4V都是強(qiáng)大而令人印象深刻的多模態(tài)大型模型。就整體性能而言,GPT-4V略優(yōu)于Gemini Pro。這與Gemini報(bào)告的結(jié)果一致。我們期待Gemini Ultra和GPT-4.5的發(fā)布,它們有望為視覺多模態(tài)應(yīng)用領(lǐng)域帶來更多可能性。
Citation
如果您覺得有用,請引用:
@misc{qi2023gemini,
title={Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases},
author={Zhangyang Qi and Ye Fang and Mengchen Zhang and Zeyi Sun and Tong Wu and Ziwei Liu and Dahua Lin and Jiaqi Wang and Hengshuang Zhao},
year={2023},
eprint={2312.15011},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
原文鏈接:https://mp.weixin.qq.com/s/ueSAHlSYdPP_emTYxMa2DQ