自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<em id="vdv61"><rt id="vdv61"></rt></em>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

CMU權威對比Gemini，GPT-3和Mistral8×7B！GPT-3.5依舊拿捏Gemini，開源模型差距依然不小

作者：新智元 2023-12-24 13:56:37

人工智能新聞

谷歌發(fā)布Gemini以后，一直宣稱Gemini Pro要優(yōu)于GPT-3.5，而CMU的研究人員通過自己實測，給大家來了一個客觀中立第三方的對比。結果卻是GPT-3.5幾乎還是全面優(yōu)于Gemini Pro，不過雙方差距不大。

谷歌最近發(fā)布的Gemini掀起了不小的波瀾。

畢竟，大語言模型領域幾乎是OpenAI的GPT一家獨大的局面。

不過作為吃瓜群眾，當然希望科技公司都卷起來，大模型都打起來！

所以，作為科技巨無霸谷歌的親兒子，Gemini自然承受了很高的期待。

雖然Gemini發(fā)布之后發(fā)生了一些奇奇怪怪的事情吧，什么視頻造假啦，認為自己是文心一言啦。

不過問題不大，咱們不看廣告看療效。

最近在CMU，研究人員進行了一組公正、深入和可重復的實驗測試，重點比較了Gemini和GPT在各項任務中的優(yōu)劣，另外還加入了開源的競爭對手Mixtral。

論文地址：https://arxiv.org/abs/2312.11444

代碼地址：https://github.com/neulab/gemini-benchmark

研究人員在論文中對Google Gemini的語言能力進行了深入地探索，

從第三方的角度，對OpenAI GPT和Google Gemini模型的能力進行了客觀比較，公開了代碼和比較結果。

我們可以從中發(fā)現(xiàn)兩個模型分別擅長的領域。

研究人員比較了6種不同任務的準確性：

- 基于知識的QA（MMLU）

- 推理（BIG-Bench Hard）

- 數(shù)學（GSM8k、SVAMP、ASDIV、MAWPS）

- 代碼生成（HumanEval，ODEX）

- 翻譯（FLORES）

- Web指令跟蹤（WebArena）

為了公平起見，實驗中嘗試控制所有變量，對所有模型使用相同的提示、生成參數(shù)和評估。

評測中使用了LiteLLM以統(tǒng)一的方式查詢模型，使用try_zeno做全面深入的分析。

測試模型

研究比較了Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo以及Mixtral，指出了他們在能力上的不同。

特點：Gemini Pro是多模態(tài)的，通過視頻、文本和圖像進行訓練。GPT-3.5 Turbo和GPT-4 Turbo則主要基于文本訓練，其中GPT-4 Turbo是多模態(tài)的。

測試復現(xiàn)方法

更方便的復現(xiàn)方法：點擊下文測試任務的鏈接即可進入CMU集成好的基于Zeno的AI評估平臺進行驗證

GitHub鏈接：

https://github.com/neulab/gemini-benchmark]

具體測試任務

基于知識的問答（Knowledge-based QA）

基于UC伯克利2020年提出的MMLU（Massive Multitask Language Understanding）大模型評測進行評測

該測試涵蓋57項任務，包括初等數(shù)學、美國歷史、計算機科學、法律等。任務涵蓋的知識很廣泛，語言是英文，用以評測大模型基本的知識覆蓋范圍和理解能力。

用5-shot和思維鏈提示詞的MMLU任務總體準確率如下圖，Gemini Pro均略微落后GPT-3.5 Turbo

文章也指出使用思維鏈提示的性能差異不大，可能是因為 MMLU 主要是基于知識的問答任務，可能不會從更強的面向推理的提示中顯著受益。

下圖顯示Gemini-pro、gpt3.5-turbo、gpt-4-turbo對于多選題答案輸出的比例，結果顯示Gemini-pro、gpt3.5-turbo都有一些答案偏見，尤其Gemini-pro十分偏向D選項

表明 Gemini 尚未針對解決多選題問題，進行大量指令調整，這可能導致模型在答案排序方面存在偏差

MMLU的57個子任務中只有兩項Gemini-pro超過GPT3.5-turbo。

下圖顯示gpt3.5最領先Gemini-pro的前四個任務的準確性，和Gemini-pro超過gpt3.5的兩個任務

通用推理(General-purpose Reasoning)

基于BBH（BIG-Bench Harch）這一通用推理數(shù)據(jù)集進行測試，其中包括算術、符號和多語言推理以及事實只是理解任務。

首先，從如下總體精度圖中可以看到Gemini Pro實現(xiàn)的精度略低于GPT 3.5 Turbo，并且遠低于GPT 4 Turbo。相比之下，Mixtral 模型的精度要低得多。

接下來進行一些細節(jié)分析，首先根據(jù)問題的長度測試一下準確性，結果如下圖。

作者發(fā)現(xiàn)Gemini Pro在更長、更復雜的問題上表現(xiàn)不佳，而GPT模型對此更穩(wěn)健。

GPT-4 Turbo的情況尤其如此，即使在較長的問題上，它也幾乎沒有表現(xiàn)出性能下降，這表明它具有強大能力來理解更長和更復雜的查詢。

GPT-3.5 Turbo的穩(wěn)健性處于中間位置。Mixtral在問題長度方面特別穩(wěn)定，但總體準確率較低。

下圖再具體列出了GPT-3.5 Turbo表現(xiàn)優(yōu)于Gemini Pro最多的任務。

Gemini Pro在tracking_shuffled_objects任務上表現(xiàn)很糟糕

在某些任務中，即multistep_arithmetic_two、salient_translation_error_detection、snarks、disambiguition_qa和兩個tracking_shuffled_objects任務中，Gemini Pro的表現(xiàn)甚至比Mixtral模型還要差。

當然，有一些任務Gemini Pro優(yōu)于GPT3.5。

下圖顯示了 Gemini Pro 比 GPT 3.5 Turbo 表現(xiàn)優(yōu)秀的六項任務。這些任務需要世界知識（sports_understanding）、操作符號堆棧（dyck_languages）、按字母順序排序單詞（word_sorting）和解析表（penguins_in_a_table）等。

文章在此部分最后表示，對于通用推理任務，似乎沒有Gemini和GPT都沒有絕對優(yōu)勢，所以可以都嘗試一下

數(shù)學問題

基于四個數(shù)學應用題評測進行：

- GSM8K，小學數(shù)學基準

- SVAMP 數(shù)據(jù)集，通過不同的詞序生成問題來檢查穩(wěn)健的推理能力，

- ASDIV 數(shù)據(jù)集，具有不同的語言模式和問題類型

- MAWPS 基準，由算術和代數(shù)應用題組成。

下圖顯示四項數(shù)學推理任務的總體準確性

從圖中可以看出，在 GSM8K、SVAMP 和 ASDIV 任務上，Gemini Pro的精度略低于 GPT-3.5 Turbo，并且遠低于 GPT-4 Turbo，這些任務都包含多樣化的語言模式。

對于 MAWPS 任務，所有模型都達到了 90% 以上的準確率，盡管 Gemini Pro 仍然比GPT模型稍差。

有趣的是，在此任務中，GPT-3.5 Turbo的表現(xiàn)以微弱優(yōu)勢勝過GPT-4 Turbo。

相比之下，Mixtral模型的準確率比其他模型要低得多。

和之前在BBH上的推理任務一樣，我們可以看到較長任務推理性能會下降。

并且和以前一樣，GPT 3.5 Turbo 在較短的問題上優(yōu)于 Gemini Pro，但下降得更快，Gemini Pro 在較長的問題上實現(xiàn)了類似（但仍稍差）的準確度。

不過在思維鏈（CoT）長度超過100的最復雜例子中，Gemini Pro優(yōu)于GPT 3.5 Turbo，但在較短示例中表現(xiàn)不佳。

最后，文章研究了比較模型在生成不同位數(shù)答案時的準確性。

根據(jù)答案中的位數(shù)創(chuàng)建三個類別，一位數(shù)、兩位數(shù)、三位數(shù)答案（MAWPS 任務除外，其答案不超過兩位數(shù)）。

如下圖所示，GPT-3.5 Turbo似乎對于多位數(shù)數(shù)學問題更加穩(wěn)健，而Gemini Pro在位數(shù)較多的問題上性能下降更多。

代碼生成

在此類別中，文章使用兩個代碼生成數(shù)據(jù)集HumanEval和ODEX檢查模型的編碼能力。

前者測試對Python標準庫中一組有限函數(shù)的基本代碼理解。

后者測試使用整個Python生態(tài)系統(tǒng)中更廣泛的庫的能力。

它們都將人工編寫的英語任務描述（通常帶有測試用例）作為輸入。這些問題用來評估對語言、算法和初等數(shù)學的理解。

總體而言，HumanEval有164個測試樣本，ODEX有439個測試樣本。

代碼生成的總體情況如下圖：

Gemini Pro在兩項任務上的Pass@1 成績都低于GPT-3.5 Turbo，遠低于GPT-4 Turbo。

接下來，分析最佳解決方案長度與模型性能之前的關系，因為解決方案長度可以一定程度上表明相應代碼生成的任務的難度。

本文發(fā)現(xiàn)，當解決方案長度低于100（即代表處理簡單問題）時，Gemini Pro 可以達到與 GPT-3.5 相當?shù)?Pass@1，但當解決方案變得更長（即處理更難的問題時）時，它會大幅落后。

文章還分析了每個解決方案所需的庫如何影響模型性能，結果如下圖顯示：

根據(jù)結果分析，在大多數(shù)使用庫的情況下，例如mock、pandas、numpy和datetime，Gemini Pro的表現(xiàn)比GPT-3.5差。

然而，它在 matplotlib 情況下優(yōu)于 GPT-3.5 和 GPT-4，在通過代碼執(zhí)行繪圖可視化時顯示出更強的功能。

下面展示幾個具體的失敗案例：

首先， Gemini在從Python API中正確選擇函數(shù)和參數(shù)方面稍差一些

比如，當你給出如下指令時

def f_3283984():
  """decode a hex string '4a4b4c' to UTF-8."""

Gemini Pro 生成以下代碼，導致類型不匹配錯誤。

bytes(bytearray.fromhex('4a4b4c'), 'utf-8')

相比之下，GPT 3.5 Turbo 使用以下代碼，達到了預期的結果：

hex_string = '4a4b4c'
decoded_string = bytes.fromhex(hex_string).decode('utf-8')
return decoded_string

此外，Gemini Pro的錯誤比例較高，所實現(xiàn)的代碼在語法上是正確的，但與復雜的意圖不正確匹配。

例如，對于以下指令

from typing import List
def remove_duplicates(numbers: List[int]) -> List[int]:
  """From a list of integers, remove all elements that occur more than once.
  Keep order of elements left the same as in the input.
  >>> remove_duplicates([1, 2, 3, 2, 4])
  [1, 3, 4]
  """

Gemini Pro 給的代碼，只提取唯一的數(shù)字，而不刪除那些出現(xiàn)多次的數(shù)字。

seen_numbers = set()
unique_numbers = []
for number in numbers:
  if number not in seen_numbers:
    unique_numbers.append(number)
    seen_numbers.add(number)
return unique_numbers

機器翻譯（Machine Translation）

基于FLORES-200 機器翻譯基準評估模型的多語言能力，特別是在各種語言對之間翻譯的能力。

針對所有選定的語言對，對測試集中的1012個句子進行評估。作為這項研究的第一步，本文將范圍限制為僅從英語到其他語言（ENG→X）的翻譯。

結果顯示如下圖，Gemini Pro在翻譯任務上，總體優(yōu)于其他模型，在 20 種語言中的 8 種語言上均優(yōu)于 GPT-3.5 Turbo 和 GPT-4 Turbo，并在4種語言上取得了最高性能。

雖然在非英語語言翻譯方面尚未超越專用機器翻譯系統(tǒng)，但通用語言模型也顯示出了強競爭力的性能

零樣本提示和5樣本提示Gemini Pro在翻譯任務上均優(yōu)于其他模型

網(wǎng)頁代理（Web Agents）

最后，本文驗證每個模型充當網(wǎng)絡導航代理（web navigation agent）的能力，這是一項需要長期規(guī)劃和復雜數(shù)據(jù)理解的任務。

使用 WebArena ，這是一個基于命令執(zhí)行的模擬環(huán)境，其中成功標準基于執(zhí)行結果。分配給代理的任務包括信息查找、站點導航以及內容和配置操作。

這些任務跨越各種網(wǎng)站，包括電子商務平臺、社交論壇、協(xié)作軟件開發(fā)平臺（例如 gitlab）、內容管理系統(tǒng)和在線地圖。

如下圖文章從總體結果可以看出，Gemini-Pro 的性能與 GPT-3.5-Turbo 相當，但稍差。

與 GPT-3.5-Turbo 類似，當Prompts提到任務可能無法完成時（UA 提示），Gemini-Pro 的表現(xiàn)會更好。通過 UA 提示，Gemini-Pro 的總體成功率達到 7.09%。

之后文章又按照網(wǎng)絡進行細分，如下圖，可以看到 Gemini-Pro 在 gitlab 和地圖上的表現(xiàn)比 GPT-3.5-Turbo 差，而在購物管理、reddit 和 Shopping 上則接近 GPT-3.5-Turbo 。它在多站點任務上的表現(xiàn)比 GPT-3.5-Turbo 更好。

測試結果總覽

在本文中，作者對 Google 的 Gemini 模型進行了第一次公正、深入的研究，并將其與 OpenAI 的 GPT 3.5 和 4 模型以及開源 Mixtral 模型進行了比較。

CMU評測的主要結果展示，黑色粗體表示最佳模型，下劃線為第二

在最后，作者疊了一些甲：

指出他們工作是針對不斷變化且不穩(wěn)定的API，所有結果均為截至 2023 年 12 月 19 日撰寫本文時的最新結果，但隨著模型和周圍系統(tǒng)的升級，未來可能會發(fā)生變化。

結果可能取決于其選擇的特定提示和生成參數(shù)

作者測試時沒有像谷歌意義使用多個樣本和自我一致性（self-consistency），不過作者認為對不同模型使用一致的prompts的多項任務上進行的測試，恰恰可以合理地展示被測模型的穩(wěn)健性和廣義指令的遵循能力

作者指出數(shù)據(jù)泄露對當前大模型評測任務的困擾，雖然他們沒有明確測量這種泄露，但他們也嘗試過各種方法來緩解這個問題

在展望中，作者也提出建議，希望大家在使用Gemini Pro之前，根據(jù)這篇論文，自己評估Gemini Pro是否如宣傳所說與GPT 3.5 Turbo相媲美。作者也表示Gemini的Ultra版本尚未發(fā)布，等其發(fā)布后也會驗證其是否如報道所說與GPT4相當。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="9gqe8"></sub>