自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CMU權威對比Gemini,GPT-3和Mistral8×7B!GPT-3.5依舊拿捏Gemini,開源模型差距依然不小

人工智能 新聞
谷歌發(fā)布Gemini以后,一直宣稱Gemini Pro要優(yōu)于GPT-3.5,而CMU的研究人員通過自己實測,給大家來了一個客觀中立第三方的對比。結果卻是GPT-3.5幾乎還是全面優(yōu)于Gemini Pro,不過雙方差距不大。

谷歌最近發(fā)布的Gemini掀起了不小的波瀾。

畢竟,大語言模型領域幾乎是OpenAI的GPT一家獨大的局面。

不過作為吃瓜群眾,當然希望科技公司都卷起來,大模型都打起來!

所以,作為科技巨無霸谷歌的親兒子,Gemini自然承受了很高的期待。

雖然Gemini發(fā)布之后發(fā)生了一些奇奇怪怪的事情吧,什么視頻造假啦,認為自己是文心一言啦。

不過問題不大,咱們不看廣告看療效。

最近在CMU,研究人員進行了一組公正、深入和可重復的實驗測試,重點比較了Gemini和GPT在各項任務中的優(yōu)劣,另外還加入了開源的競爭對手Mixtral。

論文地址:https://arxiv.org/abs/2312.11444

代碼地址:https://github.com/neulab/gemini-benchmark

研究人員在論文中對Google Gemini的語言能力進行了深入地探索,

從第三方的角度,對OpenAI GPT和Google Gemini模型的能力進行了客觀比較,公開了代碼和比較結果。

我們可以從中發(fā)現(xiàn)兩個模型分別擅長的領域。

研究人員比較了6種不同任務的準確性:

- 基于知識的QA(MMLU)

- 推理(BIG-Bench Hard)

- 數(shù)學(GSM8k、SVAMP、ASDIV、MAWPS)

- 代碼生成(HumanEval,ODEX)

- 翻譯 (FLORES)

- Web指令跟蹤(WebArena)

為了公平起見,實驗中嘗試控制所有變量,對所有模型使用相同的提示、生成參數(shù)和評估。

評測中使用了LiteLLM以統(tǒng)一的方式查詢模型,使用try_zeno做全面深入的分析。

測試模型

研究比較了Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo以及Mixtral,指出了他們在能力上的不同。

特點:Gemini Pro是多模態(tài)的,通過視頻、文本和圖像進行訓練。GPT-3.5 Turbo和GPT-4 Turbo則主要基于文本訓練,其中GPT-4 Turbo是多模態(tài)的。

測試復現(xiàn)方法

更方便的復現(xiàn)方法:點擊下文測試任務的鏈接即可進入CMU集成好的基于Zeno的AI評估平臺進行驗證

圖片

GitHub鏈接:

https://github.com/neulab/gemini-benchmark]

具體測試任務

基于知識的問答(Knowledge-based QA)

基于UC伯克利2020年提出的MMLU(Massive Multitask Language Understanding)大模型評測進行評測

該測試涵蓋57項任務,包括初等數(shù)學、美國歷史、計算機科學、法律等。任務涵蓋的知識很廣泛,語言是英文,用以評測大模型基本的知識覆蓋范圍和理解能力。

用5-shot和思維鏈提示詞的MMLU任務總體準確率如下圖,Gemini Pro均略微落后GPT-3.5 Turbo

文章也指出使用思維鏈提示的性能差異不大,可能是因為 MMLU 主要是基于知識的問答任務,可能不會從更強的面向推理的提示中顯著受益。

下圖顯示Gemini-pro、gpt3.5-turbo、gpt-4-turbo對于多選題答案輸出的比例,結果顯示Gemini-pro、gpt3.5-turbo都有一些答案偏見,尤其Gemini-pro十分偏向D選項

表明 Gemini 尚未針對解決多選題問題,進行大量指令調整,這可能導致模型在答案排序方面存在偏差

圖片

MMLU的57個子任務中只有兩項Gemini-pro超過GPT3.5-turbo。

下圖顯示gpt3.5最領先Gemini-pro的前四個任務的準確性,和Gemini-pro超過gpt3.5的兩個任務

圖片

通用推理(General-purpose Reasoning)

基于BBH(BIG-Bench Harch)這一通用推理數(shù)據(jù)集進行測試,其中包括算術、符號和多語言推理以及事實只是理解任務。

首先,從如下總體精度圖中可以看到Gemini Pro實現(xiàn)的精度略低于GPT 3.5 Turbo,并且遠低于GPT 4 Turbo。相比之下,Mixtral 模型的精度要低得多。

圖片

接下來進行一些細節(jié)分析,首先根據(jù)問題的長度測試一下準確性,結果如下圖。

圖片

作者發(fā)現(xiàn)Gemini Pro在更長、更復雜的問題上表現(xiàn)不佳,而GPT模型對此更穩(wěn)健。

GPT-4 Turbo的情況尤其如此,即使在較長的問題上,它也幾乎沒有表現(xiàn)出性能下降,這表明它具有強大能力來理解更長和更復雜的查詢。

GPT-3.5 Turbo的穩(wěn)健性處于中間位置。Mixtral在問題長度方面特別穩(wěn)定,但總體準確率較低。

下圖再具體列出了GPT-3.5 Turbo表現(xiàn)優(yōu)于Gemini Pro最多的任務。

圖片

Gemini Pro在tracking_shuffled_objects任務上表現(xiàn)很糟糕

在某些任務中,即multistep_arithmetic_two、salient_translation_error_detection、snarks、disambiguition_qa和兩個tracking_shuffled_objects任務中,Gemini Pro的表現(xiàn)甚至比Mixtral模型還要差。

當然,有一些任務Gemini Pro優(yōu)于GPT3.5。

下圖顯示了 Gemini Pro 比 GPT 3.5 Turbo 表現(xiàn)優(yōu)秀的六項任務。這些任務需要世界知識(sports_understanding)、操作符號堆棧(dyck_languages)、按字母順序排序單詞(word_sorting)和解析表(penguins_in_a_table)等。

圖片

文章在此部分最后表示,對于通用推理任務,似乎沒有Gemini和GPT都沒有絕對優(yōu)勢,所以可以都嘗試一下

數(shù)學問題

基于四個數(shù)學應用題評測進行:

    - GSM8K,小學數(shù)學基準

    - SVAMP 數(shù)據(jù)集,通過不同的詞序生成問題來檢查穩(wěn)健的推理能力,

    - ASDIV 數(shù)據(jù)集,具有不同的語言模式和問題類型 

    - MAWPS 基準,由算術和代數(shù)應用題組成。

下圖顯示四項數(shù)學推理任務的總體準確性

圖片

從圖中可以看出,在 GSM8K、SVAMP 和 ASDIV 任務上,Gemini Pro的精度略低于 GPT-3.5 Turbo,并且遠低于 GPT-4 Turbo,這些任務都包含多樣化的語言模式。

對于 MAWPS 任務,所有模型都達到了 90% 以上的準確率,盡管 Gemini Pro 仍然比GPT模型稍差。

有趣的是,在此任務中,GPT-3.5 Turbo的表現(xiàn)以微弱優(yōu)勢勝過GPT-4 Turbo。

相比之下,Mixtral模型的準確率比其他模型要低得多。

和之前在BBH上的推理任務一樣,我們可以看到較長任務推理性能會下降。

并且和以前一樣,GPT 3.5 Turbo 在較短的問題上優(yōu)于 Gemini Pro,但下降得更快,Gemini Pro 在較長的問題上實現(xiàn)了類似(但仍稍差)的準確度。

不過在思維鏈(CoT)長度超過100的最復雜例子中,Gemini Pro優(yōu)于GPT 3.5 Turbo,但在較短示例中表現(xiàn)不佳。

圖片

最后,文章研究了比較模型在生成不同位數(shù)答案時的準確性。

根據(jù)答案中的位數(shù)創(chuàng)建三個類別,一位數(shù)、兩位數(shù)、三位數(shù)答案(MAWPS 任務除外,其答案不超過兩位數(shù))。

如下圖所示,GPT-3.5 Turbo似乎對于多位數(shù)數(shù)學問題更加穩(wěn)健,而Gemini Pro在位數(shù)較多的問題上性能下降更多。

圖片

代碼生成

在此類別中,文章使用兩個代碼生成數(shù)據(jù)集HumanEval和ODEX檢查模型的編碼能力。

前者測試對Python標準庫中一組有限函數(shù)的基本代碼理解。

后者測試使用整個Python生態(tài)系統(tǒng)中更廣泛的庫的能力。

它們都將人工編寫的英語任務描述(通常帶有測試用例)作為輸入。這些問題用來評估對語言、算法和初等數(shù)學的理解。

總體而言,HumanEval有164個測試樣本,ODEX有439個測試樣本。

代碼生成的總體情況如下圖:

Gemini Pro在兩項任務上的Pass@1 成績都低于GPT-3.5 Turbo,遠低于GPT-4 Turbo。

圖片

接下來,分析最佳解決方案長度與模型性能之前的關系,因為解決方案長度可以一定程度上表明相應代碼生成的任務的難度。

本文發(fā)現(xiàn),當解決方案長度低于100(即代表處理簡單問題)時,Gemini Pro 可以達到與 GPT-3.5 相當?shù)?Pass@1,但當解決方案變得更長(即處理更難的問題時)時,它會大幅落后。

圖片

文章還分析了每個解決方案所需的庫如何影響模型性能,結果如下圖顯示:

根據(jù)結果分析,在大多數(shù)使用庫的情況下,例如mock、pandas、numpy和datetime,Gemini Pro的表現(xiàn)比GPT-3.5差。

然而,它在 matplotlib 情況下優(yōu)于 GPT-3.5 和 GPT-4,在通過代碼執(zhí)行繪圖可視化時顯示出更強的功能。

圖片

下面展示幾個具體的失敗案例:

首先, Gemini在從Python API中正確選擇函數(shù)和參數(shù)方面稍差一些

比如,當你給出如下指令時

def f_3283984():
  """decode a hex string '4a4b4c' to UTF-8."""

Gemini Pro 生成以下代碼,導致類型不匹配錯誤。

bytes(bytearray.fromhex('4a4b4c'), 'utf-8')

相比之下,GPT 3.5 Turbo 使用以下代碼,達到了預期的結果:

hex_string = '4a4b4c'
decoded_string = bytes.fromhex(hex_string).decode('utf-8')
return decoded_string

此外,Gemini Pro的錯誤比例較高,所實現(xiàn)的代碼在語法上是正確的,但與復雜的意圖不正確匹配。

例如,對于以下指令

from typing import List
def remove_duplicates(numbers: List[int]) -> List[int]:
  """From a list of integers, remove all elements that occur more than once.
  Keep order of elements left the same as in the input.
  >>> remove_duplicates([1, 2, 3, 2, 4])
  [1, 3, 4]
  """

Gemini Pro 給的代碼,只提取唯一的數(shù)字,而不刪除那些出現(xiàn)多次的數(shù)字。

seen_numbers = set()
unique_numbers = []
for number in numbers:
  if number not in seen_numbers:
    unique_numbers.append(number)
    seen_numbers.add(number)
return unique_numbers

機器翻譯(Machine Translation)

基于FLORES-200 機器翻譯基準評估模型的多語言能力,特別是在各種語言對之間翻譯的能力。

針對所有選定的語言對,對測試集中的1012個句子進行評估。作為這項研究的第一步,本文將范圍限制為僅從英語到其他語言(ENG→X)的翻譯。

結果顯示如下圖,Gemini Pro在翻譯任務上,總體優(yōu)于其他模型,在 20 種語言中的 8 種語言上均優(yōu)于 GPT-3.5 Turbo 和 GPT-4 Turbo,并在4種語言上取得了最高性能。

圖片

雖然在非英語語言翻譯方面尚未超越專用機器翻譯系統(tǒng),但通用語言模型也顯示出了強競爭力的性能

零樣本提示和5樣本提示Gemini Pro在翻譯任務上均優(yōu)于其他模型

圖片

網(wǎng)頁代理(Web Agents)

最后,本文驗證每個模型充當網(wǎng)絡導航代理(web navigation agent)的能力,這是一項需要長期規(guī)劃和復雜數(shù)據(jù)理解的任務。

使用 WebArena ,這是一個基于命令執(zhí)行的模擬環(huán)境,其中成功標準基于執(zhí)行結果。分配給代理的任務包括信息查找、站點導航以及內容和配置操作。

這些任務跨越各種網(wǎng)站,包括電子商務平臺、社交論壇、協(xié)作軟件開發(fā)平臺(例如 gitlab)、內容管理系統(tǒng)和在線地圖。

如下圖文章從總體結果可以看出,Gemini-Pro 的性能與 GPT-3.5-Turbo 相當,但稍差。

圖片

與 GPT-3.5-Turbo 類似,當Prompts提到任務可能無法完成時(UA 提示),Gemini-Pro 的表現(xiàn)會更好。通過 UA 提示,Gemini-Pro 的總體成功率達到 7.09%。

之后文章又按照網(wǎng)絡進行細分,如下圖,可以看到 Gemini-Pro 在 gitlab 和地圖上的表現(xiàn)比 GPT-3.5-Turbo 差,而在購物管理、reddit 和 Shopping 上則接近 GPT-3.5-Turbo 。它在多站點任務上的表現(xiàn)比 GPT-3.5-Turbo 更好。

圖片

測試結果總覽

在本文中,作者對 Google 的 Gemini 模型進行了第一次公正、深入的研究,并將其與 OpenAI 的 GPT 3.5 和 4 模型以及開源 Mixtral 模型進行了比較。

CMU評測的主要結果展示,黑色粗體表示最佳模型,下劃線為第二

在最后,作者疊了一些甲:

指出他們工作是針對不斷變化且不穩(wěn)定的API,所有結果均為截至 2023 年 12 月 19 日撰寫本文時的最新結果,但隨著模型和周圍系統(tǒng)的升級,未來可能會發(fā)生變化。

結果可能取決于其選擇的特定提示和生成參數(shù)

 作者測試時沒有像谷歌意義使用多個樣本和自我一致性(self-consistency),不過作者認為對不同模型使用一致的prompts的多項任務上進行的測試,恰恰可以合理地展示被測模型的穩(wěn)健性和廣義指令的遵循能力

作者指出數(shù)據(jù)泄露對當前大模型評測任務的困擾,雖然他們沒有明確測量這種泄露,但他們也嘗試過各種方法來緩解這個問題

在展望中,作者也提出建議,希望大家在使用Gemini Pro之前,根據(jù)這篇論文,自己評估Gemini Pro是否如宣傳所說與GPT 3.5 Turbo相媲美。作者也表示Gemini的Ultra版本尚未發(fā)布,等其發(fā)布后也會驗證其是否如報道所說與GPT4相當。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-20 22:17:19

GeminiGPT-3.5谷歌

2023-12-20 15:32:02

模型數(shù)據(jù)

2024-03-25 08:00:00

2021-03-23 15:21:00

人工智能機器學習技術

2021-07-19 10:56:36

GPE-3OpenAI微軟

2024-02-07 12:39:00

AI數(shù)據(jù)

2023-12-14 13:04:00

訓練數(shù)據(jù)

2024-01-02 14:07:00

2024-03-18 07:01:42

2023-03-01 16:15:16

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2023-07-22 13:09:51

模型開源

2023-09-25 09:58:25

AI框架

2023-06-21 13:37:41

模型研究

2023-04-28 09:07:28

2023-12-17 13:07:11

訓練數(shù)據(jù)

2023-10-16 13:28:00

數(shù)據(jù)AI

2024-07-19 09:26:12

2023-09-06 16:44:03

2024-07-17 13:40:01

點贊
收藏

51CTO技術棧公眾號