自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌Gemini扳回一局!多模態(tài)能力和GPT-4V不分伯仲|港中文128頁全面測評報告

人工智能 新聞
在多模態(tài)專有基準MME上,Gemini-Pro的感知和認知綜合表現(xiàn)則直接獲得了1933.4的高分,超越GPT-4V(1926.6)。

谷歌扳回一局!

在Gemini開放API不到一周的時間,港中文等機構(gòu)就完成評測,聯(lián)合發(fā)布了多達128頁的報告,結(jié)果顯示:

在37個視覺理解任務(wù)上,Gemini-Pro表現(xiàn)出了和GPT-4V相當?shù)哪芰?/strong>。

在多模態(tài)專有基準MME上,Gemini-Pro的感知和認知綜合表現(xiàn)則直接獲得了1933.4的高分,超越GPT-4V(1926.6)。

圖片

此前,CMU測評發(fā)現(xiàn)Gemini-Pro的綜合能力居然和GPT-3.5差不多

現(xiàn)在,在多模態(tài)這個一大主推的賣點上,Gemini-Pro可算是扳回一局。

那么具體如何?

測評報告一共128頁,咱們就挑重點來看。

圖片

Gemini-Pro的首份多模態(tài)能力報告來了

這份測評主要是對Gemini-Pro的視覺理解能力進行評估。

一共涵蓋基礎(chǔ)感知、高級認知、挑戰(zhàn)性視覺任務(wù)和各種專家能力四大領(lǐng)域,在37個細分任務(wù)項上進行定性比較。

定量評估則在專為多模態(tài)大語言模型專門設(shè)計的評測基準MME上展開。

首先來看定量測試結(jié)果。

MME上綜合表現(xiàn)比GPT-4V強

MME基準包含兩大類任務(wù)。

一個是感知,涵蓋目標存在性判斷、物體計數(shù)、位置關(guān)系、顏色判斷、OCR識別、海報識別、名人識別、場景識別、地標識別和藝術(shù)品識別等。

一個是認知,涵蓋常識推理、數(shù)值計算、文本翻譯和代碼推理等。

結(jié)果如下:

可以看到Gemini-Pro和GPT-4V可謂“各有所長”。

圖片

而計分顯示,Gemini-Pro的總分為1933.4,比GPT-4V(1926.6)要高那么一點點。

圖片

具體來看:

1、Gemini-Pro在文本翻譯、顏色/地標/人物識別、OCR等任務(wù)中表現(xiàn)突出;

2、GPT-4V在名人識別任務(wù)上的得分為0,主要是因為拒絕回答名人相關(guān)的問題;

3、無論是Gemini還是GPT-4V在位置識別任務(wù)上表現(xiàn)都不佳,表明他們對空間位置信息不敏感;

4、開源模型SPHINX在感知任務(wù)上與GPT-4V以及Gemini平齊甚至更優(yōu),但認知和兩者有較大差距。

下面就是四大項任務(wù)上的定性結(jié)果了。

基礎(chǔ)感知

感知能力直接影響模型在高階任務(wù)中的能力,因為它決定了模型獲取和處理原始視覺輸入的準確性和有效性。

報告中分別測試了模型的對象級感知能力、場景級感知能力和基于知識的感知能力。

具體一共10個細分任務(wù):

圖片

鑒于篇幅有限,我們在此只展示其中5個:

1、空間關(guān)系

都不分左右。但GPT-4V可以通過上下文少樣本學習這項任務(wù),然后做出正確回答。

圖片

2、物體計數(shù)

簡單樣例整體還OK,但復雜一點的全軍覆沒。不過在數(shù)NBA籃球運動員時,Gemini-Pro的答案已經(jīng)相當接近了(正確為42個)。

圖片

3、視覺錯覺

左側(cè)樣例中,兩個梨實際上具有相同的亮度。Gemini Pro正確識別,而GPT-4V和SPHNIX被欺騙。

圖片

4、場景理解

模型都能夠描繪場景中的關(guān)鍵視覺元素。相比之下,GPT-4V顯示出優(yōu)越的性能,描述更加詳細,并且幻覺的實例也更少。

圖片

5、視頻場景理解

從視頻中抽取三個時刻的關(guān)鍵幀,Gemini Pro能夠?qū)⒉煌瑤男畔⒄铣梢粋€連貫的場景描述。

而GPT-4V只是逐幀描述圖像的內(nèi)容。相比之下,SPHNIX的描述并沒有表現(xiàn)出對圖像序列的全面理解。

圖片

高級認知

這類任務(wù)需要模型進行深入的推理、解決問題和決策。

在此,報告中分別測試了模型的富含文本的視覺推理能力、抽象視覺推理能力、解決科學問題能力、情感分析能力、智力游戲能力。具體包括13項細分任務(wù),同樣限于篇幅我們只展示其中幾項。

圖片

1、代碼生成

將結(jié)構(gòu)化視覺內(nèi)容轉(zhuǎn)換為相應(yīng)的代碼是多模態(tài)大模型的一項重要技能,在此分別測試了模型識別公式生成LaTex代碼和識別網(wǎng)頁生成HTML代碼的能力。

Gemini Pro和GPT-4V在公式識別上表現(xiàn)出更好的結(jié)果,但仍然會錯誤識別一些小字符或符號。

圖片

三個模型的識別網(wǎng)頁生成相應(yīng)HTML代碼的能力仍然存在很大的改進空間。

圖片

2、抽象視覺刺激

對抽象視覺刺激和符號的理解和推理是人類智能的一項基本能力。GPT-4V展示了最好的抽象性能,提供了對象如何由形狀組成的詳細描述。Gemini Pro能識別一些簡單的抽象模式。

圖片

3、圖像情感分析

模型都可以很好地描繪視圖,并提供其中可能的情感。GPT-4V觀察是中立的,強調(diào)情緒是主觀的,同時給出了更全面的分析。Gemini Pro傾向于直接輸出情感偏好。

圖片

4、情感調(diào)節(jié)輸出

情感調(diào)節(jié)輸出是讓多模態(tài)大模型描述以預定義情感為條件的視覺上下文。

雖然Gemini Pro和GPT-4V能夠正確地將相應(yīng)的情感注入到生成的文本中,但它們都遇到了幻覺問題。

圖片

5、數(shù)獨游戲

如果僅以圖像作為輸入,盡管Gemini Pro嘗試在輸出矩陣內(nèi)提供答案,但無法正確識別空白位置,而GPT-4V和SPHNIX則無法進行第一步 光學字符識別。此外,給定相應(yīng)的文本輸入,Gemini Pro和GPT-4V都可以給出正確的答案。

圖片

挑戰(zhàn)性視覺任務(wù)

評估多模態(tài)大模型在超出標準視覺問答范圍的各種具有挑戰(zhàn)性的視覺任務(wù)中的性能。

需要模型具有深厚的視覺感知和理解能力,評估這類表現(xiàn)將有助于深入了解模型在多領(lǐng)域應(yīng)用的可行性。

報告中分別測試了模型在圖像視覺任務(wù)和時序視覺任務(wù)中的性能。具體包括以下7個細分任務(wù):

圖片

在此我們展示3個。

1、指稱表達式理解

Gemini Pro和GPT-4V都能夠識別指稱對象的大致位置,但它們很難提供精確的坐標和框大小。而SPHNIX展示了提供引用對象的準確位置和大小的能力。

圖片

2、目標跟蹤

Gemini Pro和GPT-4V都能夠描繪出要跟蹤的目標的細節(jié),但它們隨后兩幀圖像中提供了錯誤的邊界框。

圖片

3、視覺故事生成

任務(wù)要求模型完全理解圖像中的信息,并在生成的故事中對其進行邏輯組織。

Gemini Pro和SPHNIX提供了連貫的故事,但卻和沒有十分貼近漫畫劇情。

GPT-4V為每個插圖提供了精確的描述,卻未能根據(jù)任務(wù)要求將它們編織成一個有凝聚力的故事。

圖片

各種專家能力

專家能力衡量多模態(tài)大模型將其學到的知識和技能應(yīng)用于不同專業(yè)領(lǐng)域的泛化能力。除了上述的感知和認知任務(wù)外,多模態(tài)大模型在專門和獨特場景下的魯棒性通常具有更實際的參考意義。也是7個細分任務(wù):

圖片

在此我們同樣展示3個:

1、缺陷檢測

缺陷檢測需要高精度和對細節(jié)的關(guān)注。對于缺陷明顯的圖像,模型都可以提供正確答案,其中GPT-4V輸出更詳細的原因和描述。

對于下圖中的螺紋損壞的樣例,Gemini Pro給出了過于籠統(tǒng)的答案,SPHNIX錯誤地描述了外觀,而GPT-4V給出了標準答案。

圖片

2、經(jīng)濟分析

報告展示了兩個用于回答問題的股價走勢圖。Gemini Pro擅長專家級金融知識,能夠給出正確答案。GPT-4V由于安全風險而沒有給出明確答案。SPHNIX由于缺乏相關(guān)訓練數(shù)據(jù)無法理解此類問題。

圖片

3、機器人運動規(guī)劃

機器人規(guī)劃要求機器人能夠確定如何在給定情況下采取行動以實現(xiàn)特定目標。

Gemini Pro和GPT-4V都可以提供有條理且詳細的步驟,并且GPT-4V似乎比Gemini Pro給出了更合理的決定,例如電池的安裝順序,但SPHNIX無法完成手機的組裝,說明其泛化能力有限。

圖片

總結(jié)評價:都是“半斤八兩”

鑒于其卓越的多模態(tài)推理能力,Gemini確實是GPT-4V的有力挑戰(zhàn)者。

在大多數(shù)情況下,與GPT-4V相比,Gemini的回答準確性具有競爭力,并展示了不同的回答風格和偏好。

GPT-4V傾向于生成對感知任務(wù)更詳細的描述,并為認知任務(wù)提供深入的分析和逐步的中間推理,而Gemini更喜歡對答案提供直接而簡潔的回應(yīng),這有助于用戶快速找到相關(guān)信息。

不過,兩個模型也存在一定的共性問題,比如空間感知能力不強,復雜OCR和抽象視覺理解不理想,推理過程可能存在不自洽結(jié)果,對提示設(shè)計的魯棒性不足……在很多情況下仍然陷入困境。

所以,從現(xiàn)階段成果來看,兩者都點“半斤八兩”的意思。

作者最后的結(jié)論就是:

大模型的多模態(tài)能力總的來說都還有很長的路要走。

具體往哪走?

三個方面:視覺表示編碼(細粒度外觀、空間關(guān)系感知)、多模態(tài)對齊(減輕幻覺、OCR準確性)以及模型推理能力(定量處理、邏輯一致性)。

關(guān)于Gemini Pro與GPT-4V、SPHNIX的更多評估比較,請查看原論文。

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-11-05 15:13:38

AI測評

2023-12-20 15:32:02

模型數(shù)據(jù)

2023-10-17 12:34:04

2009-06-26 15:09:57

.NET開發(fā)者AjaxjQuery

2023-12-29 09:55:03

視覺模型

2023-10-04 18:42:30

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2024-02-02 21:53:58

AI訓練

2023-11-13 18:19:35

AI訓練

2023-10-17 13:36:00

人工智能數(shù)據(jù)

2023-11-20 13:53:00

數(shù)據(jù)訓練

2023-09-15 13:32:00

AI模型

2024-04-14 19:53:44

2023-12-08 13:07:49

GeminiGPT-4人工智能

2023-10-12 13:05:00

谷歌AI

2024-05-20 08:20:00

OpenAI模型

2024-05-11 07:00:00

GPT4VGemini大模型

2023-10-10 13:42:56

訓練數(shù)據(jù)

2024-07-23 09:48:59

2024-06-04 14:11:00

點贊
收藏

51CTO技術(shù)棧公眾號