自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌Gemini大逆轉(zhuǎn)?斯坦福Meta華人證明其推理性能強(qiáng)于GPT-3.5

人工智能 新聞
谷歌放出的Gemini,在對(duì)標(biāo)GPT的道路上似乎一直處于劣勢(shì),Gemini真的比GPT-4弱嗎?最近,斯坦福和Meta的學(xué)者發(fā)文為Gemini正名。

Gemini的推理能力,真的比GPT-4弱嗎?

此前,谷歌憋出的重磅復(fù)仇神器Gemini Pro,被發(fā)現(xiàn)在常識(shí)推理任務(wù)中落后于OpenAI的GPT模型。

之后又有CMU發(fā)布的論文和實(shí)驗(yàn),證明Gemini Pro的很多能力都略微落后于GPT-3.5 Turbo

不過(guò)最近,斯坦福和Meta的學(xué)者為Gemini洗清了這一「冤屈」。

他們發(fā)現(xiàn),這種基于有限數(shù)據(jù)集(HellaSWAG)的評(píng)估,并不能完全捕捉到Gemini真正的常識(shí)推理潛力。

論文地址:https://arxiv.org/abs/2312.17661

而在新測(cè)試集中,Gemini的推理能力比之前強(qiáng)很多!

Gemini的真正潛力

斯坦福和Meta的研究人員表示,以前的基于有限數(shù)據(jù)集的評(píng)估,對(duì)于Gemini不夠公平。

這次,研究人員設(shè)計(jì)了需要跨模態(tài)整合常識(shí)知識(shí)的任務(wù),以對(duì)Gemini在復(fù)雜推理任務(wù)中的表現(xiàn)進(jìn)行徹底的評(píng)估。

研究人員對(duì)12個(gè)常識(shí)推理數(shù)據(jù)集進(jìn)行了全面分析,從一般任務(wù)到特定領(lǐng)域的任務(wù)。

在其中的4個(gè)LLM實(shí)驗(yàn)和2個(gè)MLLM實(shí)驗(yàn)中,研究者證明了Gemini具有目前相當(dāng)強(qiáng)的常識(shí)推理能力。

研究者對(duì)于當(dāng)前流行的四大模型——Llama 2-70b、Gemini Pro、GPT-3.5 Turbo和GPT-4 Turbo進(jìn)行了評(píng)估,

他們發(fā)現(xiàn),總體而言,Gemini Pro的性能和GPT-3.5 Pro相當(dāng),準(zhǔn)確性上落后于GPT-4 Turbo。

實(shí)驗(yàn)

數(shù)據(jù)集

實(shí)驗(yàn)中采用了12個(gè)與不同類型的常識(shí)推理相關(guān)的數(shù)據(jù)集,包括11個(gè)基于語(yǔ)言的數(shù)據(jù)集和一個(gè)多模態(tài)數(shù)據(jù)集。

基于語(yǔ)言的數(shù)據(jù)集包括三大類常識(shí)推理問(wèn)題:

1.一般推理和情境推理:CommonsenseQA,側(cè)重于一般常識(shí)知識(shí);Cosmos QA,強(qiáng)調(diào)語(yǔ)境理解敘事;αNLI,引入演繹推理,包括推斷最合理的解釋;HellaSWAG,以上下文事件序列的推理為中心。

2.專業(yè)推理和知識(shí)推理:TRAM,測(cè)試關(guān)于時(shí)間的推理;NumerSense,側(cè)重于數(shù)值理解;PIQA,評(píng)估物理相互作用知識(shí);QASC,處理與科學(xué)相關(guān)的推理;RiddleSense,通過(guò)謎語(yǔ)挑戰(zhàn)創(chuàng)造性思維。

3.社會(huì)和道德推理:Social IQa,測(cè)試對(duì)社會(huì)互動(dòng)的理解;ETHICS,評(píng)估道德和倫理推理。

對(duì)于多模態(tài)數(shù)據(jù)集(視覺(jué)和語(yǔ)言),這里選擇VCR,一個(gè)用于認(rèn)知水平視覺(jué)理解的大規(guī)模數(shù)據(jù)集。

對(duì)于包含多個(gè)任務(wù)的TRAM和ETHICS等數(shù)據(jù)集,研究人員提取了實(shí)驗(yàn)的常識(shí)推理部分。

實(shí)驗(yàn)中采用準(zhǔn)確性作為所有數(shù)據(jù)集的性能指標(biāo)。下表給出了數(shù)據(jù)集的概述以及示例問(wèn)題。

模型

采用最流行的四個(gè)大模型:開源的Llama-2-70b-chat和閉源的Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。

每個(gè)模型都使用相應(yīng)的API密鑰進(jìn)行訪問(wèn):通過(guò)Google Vertex AI訪問(wèn)Gemini,通過(guò)OpenAI API訪問(wèn)GPT,通過(guò)DeepInfra訪問(wèn)Llama2。

對(duì)于多模態(tài)數(shù)據(jù)集,實(shí)驗(yàn)中考慮了GPT-4V(API中的gpt-4-vision-preview)和 Gemini Pro Vision(API中的gemini-pro-vision)。

考慮到API成本和速率的限制,研究人員從每個(gè)基于語(yǔ)言的數(shù)據(jù)集的驗(yàn)證集中隨機(jī)選擇了200個(gè)示例,從VCR數(shù)據(jù)集的驗(yàn)證集中隨機(jī)選擇了50個(gè)示例。

對(duì)于所有評(píng)估,在模型響應(yīng)生成期間采用貪婪解碼(即溫度=0)。

提示

在評(píng)估基于語(yǔ)言的數(shù)據(jù)集時(shí),研究人員采用了兩種提示設(shè)置:零樣本標(biāo)準(zhǔn)提示(SP),旨在衡量模型在語(yǔ)言環(huán)境中的固有常識(shí)能力,以及少樣本思維鏈(CoT)提示,用于觀察模型性能的潛在增強(qiáng)。

對(duì)于多模態(tài)數(shù)據(jù)集,利用零樣本標(biāo)準(zhǔn)提示,來(lái)評(píng)估MLLM的端到端視覺(jué)常識(shí)推理能力。

結(jié)果

整體的性能比較結(jié)果如下表所示:

從模型的角度來(lái)看,GPT-4 Turbo的平均表現(xiàn)最好。在零樣本學(xué)習(xí)中,它比第二名的Gemini Pro高出7.3%,在少樣本學(xué)習(xí)中優(yōu)勢(shì)更大(9.0%)。

而Gemini Pro的平均準(zhǔn)確率略高于 GPT-3.5 Turbo(0-shot,SP下高1.3%,k-shot,CoT下高1.5%)。

關(guān)于提示方法,CoT提高了所有數(shù)據(jù)集的性能,在 CommonsenseQA、TRAM和Social IQa等數(shù)據(jù)集中有明顯的收益。

下表是在多模態(tài)VCR數(shù)據(jù)集上的性能比較:

VCR的三個(gè)子任務(wù)分別為:Q → A,根據(jù)視覺(jué)上下文生成問(wèn)題的答案;QA→R,要求模型為給定的答案提供基本原理;Q → AR,既要回答問(wèn)題,又要用適當(dāng)?shù)睦碛蓙?lái)證明回答的合理性。

將11個(gè)基于語(yǔ)言的數(shù)據(jù)集分為三組,在圖1中展示了每組中每種設(shè)置的性能。

研究結(jié)果表明,GPT-4 Turbo在所有類別的性能方面始終領(lǐng)先。

Gemini Pro和GPT-3.5 Turbo的性能相當(dāng);不過(guò),Gemini Pro在三個(gè)類別中的兩個(gè)類別中,略勝于GPT-3.5 Turbo。

總體而言,所有模型在處理社會(huì)和道德推理數(shù)據(jù)集方面,都表現(xiàn)出強(qiáng)大的能力。

然而,它們?cè)谝话阃评砗驼Z(yǔ)境推理任務(wù)上的表現(xiàn),存在顯著差異。

這也表明,它們對(duì)更廣泛的常識(shí)原則,及其在不同背景下的應(yīng)用理解,存在潛在差距。

而在專業(yè)和知識(shí)推理類別,特別是在時(shí)間和基于謎語(yǔ)的挑戰(zhàn)領(lǐng)域,模型在處理復(fù)雜時(shí)間序列、破譯謎語(yǔ)所需的抽象和創(chuàng)造性思維能力上,都表現(xiàn)出了缺陷。

關(guān)于多模態(tài)數(shù)據(jù)集,圖2詳細(xì)介紹了GPT-4V和GeminiPro Vision在不同問(wèn)題類型上的性能比較。

我們可以看到,在最后一個(gè)關(guān)于時(shí)間類別的問(wèn)題上,GeminiPro Vision實(shí)現(xiàn)了反超。

MLLM的推理正當(dāng)性

為了評(píng)估MLLM的推理能力,尤其是不僅提供正確答案,還能就常識(shí)問(wèn)題提供合理且基于上下文推理的能力,研究者采用了系統(tǒng)抽樣方法。

對(duì)于評(píng)估四個(gè)LLM的11個(gè)基于語(yǔ)言的數(shù)據(jù)集,研究者隨機(jī)選擇了30個(gè)回答正確的問(wèn)題,和30個(gè)回答錯(cuò)誤的問(wèn)題。

如果數(shù)據(jù)集提供的錯(cuò)誤答案少于30 個(gè),研究者就會(huì)包含進(jìn)所有可用的錯(cuò)誤答案,以確保分析的全面性。

選擇這些問(wèn)題后,他們會(huì)讓每個(gè)模型解釋:「問(wèn)題答案背后的基本原理是什么?」 然后手動(dòng)檢查模型提供的推理過(guò)程,并根據(jù)其邏輯合理性和與問(wèn)題的相關(guān)性被判為True或False。

圖3顯示,GPT-4 Turbo在正確和錯(cuò)誤的答案上,都顯示出先進(jìn)的推理機(jī)制,即使最終答案不準(zhǔn)確,它也有保持邏輯連貫的能力。

另外,Gemini Pro也表現(xiàn)出了值得稱贊的推理能力,提供了全面的常識(shí)推理方法。

下圖展示了Gemini Pro和GPT-3.5的兩個(gè)真實(shí)示例,展現(xiàn)了正確答案和正確理由,以及錯(cuò)誤答案和錯(cuò)誤理由的情況。

示例問(wèn)題來(lái)自QASC數(shù)據(jù)集,紅色粗體為正確答案。在上圖中,Gemini Pro表現(xiàn)出有條不紊的推理,仔細(xì)考慮所有選項(xiàng)以得出最合乎邏輯的結(jié)論。

相反,由于GPT-3.5 Turbo對(duì)非常規(guī)邏輯的傾向,導(dǎo)致了富有想象力但不正確的答案。

這表明不同模型應(yīng)對(duì)常識(shí)推理任務(wù)的不同策略,有自己的獨(dú)特能力和局限性。

Gemini Pro的常識(shí)推理能力

一般常識(shí)(CommonsenseQA)

在使用CommonsenseQA數(shù)據(jù)集的一般常識(shí)評(píng)估中,有這樣一道示例問(wèn)題:「當(dāng)你是陌生人時(shí),人們會(huì)怎樣?」

A.火車  B.奇怪  C.人類  D.愚蠢  E.危險(xiǎn)

Gemini Pro選擇了B。

它的推理過(guò)程也值得注意:它認(rèn)識(shí)到,雖然所有選項(xiàng)都和「陌生人」的概念相關(guān),但只有「奇怪」準(zhǔn)確概括了問(wèn)題的中立和開放性本質(zhì)。

這個(gè)選擇,凸顯出了Gemini Pro解釋和應(yīng)用一般常識(shí)知識(shí)的能力。

時(shí)間(TRAM)

TRAM數(shù)據(jù)集的時(shí)間常識(shí)評(píng)估中的示例問(wèn)題:「他還承諾會(huì)來(lái)找他。」

他需要多長(zhǎng)時(shí)間才能「來(lái)到他身邊」?

A.100年  B.一分鐘內(nèi) C.幾個(gè)小時(shí)

由于缺乏足夠的背景信息,特別是關(guān)于所涉及的身份和「來(lái)到」的含義,Gemini Pro無(wú)法提供明確的答案。

這說(shuō)明了,模型需要依賴特定的上下文信息,來(lái)做出準(zhǔn)確的時(shí)間判斷。

在現(xiàn)實(shí)世界的信息傳播中,模糊或不完整的信息,也會(huì)造成這種局限性。

社交(Social IQa)

在使用Social IQa數(shù)據(jù)集評(píng)估GeminiPro在社會(huì)常識(shí)推理方面的表現(xiàn)時(shí),出現(xiàn)了一個(gè)有趣的場(chǎng)景: 人們一直欺負(fù)在Sasha,Sasha報(bào)復(fù)了回去,接下來(lái)人們會(huì)做什么?

A.按Sasha說(shuō)的去做 B.報(bào)仇 C.逃離Sasha

正確答案是C,但Gemini Pro的選擇卻顯得很有洞察力。

它選擇了B,理由是Sasha的行動(dòng)很可能點(diǎn)燃了人們復(fù)仇的欲望。

這一回應(yīng)表明,Gemini Pro對(duì)于社會(huì)動(dòng)態(tài)和情感動(dòng)機(jī)有了細(xì)致入微的理解。

Visual(VCR)

在VCR數(shù)據(jù)集中,研究者分析了Gemini Pro Vision對(duì)涉及人身安全和潛在危險(xiǎn)場(chǎng)景的響應(yīng)。

如果此時(shí)4號(hào)推了3號(hào),會(huì)發(fā)生什么?

Gemini Pro Vision回答:3號(hào)會(huì)掉下懸崖,危及生命。

這個(gè)結(jié)果表明,Gemini Pro Vision已經(jīng)能夠做出視覺(jué)常識(shí)推理,分析視覺(jué)場(chǎng)景并預(yù)測(cè)這些場(chǎng)景中動(dòng)作的潛在后果。

這表明模型已經(jīng)掌握了空間關(guān)系和物理后果,具備了類似人類認(rèn)知的復(fù)雜視覺(jué)信息能力。

作者介紹

Yuqing Wang目前是斯坦福大學(xué)的博士后研究員。

此前,她在明尼蘇達(dá)大學(xué)獲得學(xué)士學(xué)位,在在加利福尼亞大學(xué)圣芭芭拉分校獲得博士學(xué)位。

圖片

Yun Zhao目前是Meta的研究員,研究方向是機(jī)器學(xué)習(xí)(包括深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí))的應(yīng)用、人工智能與數(shù)據(jù)挖掘。

此前,他在清華大學(xué)獲得碩士學(xué)位,并且同樣在加利福尼亞大學(xué)圣芭芭拉分校獲得博士學(xué)位。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-03-14 12:45:32

2023-03-15 10:26:00

模型開源

2023-03-14 13:45:14

模型AI

2025-03-12 10:38:05

2013-03-08 10:39:23

2012-08-06 09:27:52

聯(lián)想手機(jī)聯(lián)想

2023-12-20 15:32:02

模型數(shù)據(jù)

2024-02-02 16:24:43

2024-04-28 00:00:00

GPT-5GPT-6GPT-4

2024-06-11 08:25:00

2023-03-15 10:35:16

GPTAI

2024-08-16 14:15:00

AI訓(xùn)練

2019-10-14 09:58:00

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2021-09-17 12:54:05

AI 數(shù)據(jù)人工智能

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2023-12-14 13:04:00

訓(xùn)練數(shù)據(jù)

2023-12-20 22:17:19

GeminiGPT-3.5谷歌

2024-11-21 14:00:00

模型AI

2024-12-09 13:40:26

2023-12-24 13:56:37

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)