自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

摸底谷歌Gemini:CMU全面測評,Gemini Pro不敵GPT 3.5 Turbo

人工智能 新聞
谷歌的 Gemini 到底幾斤幾兩?和 OpenAI 的 GPT 模型相比表現(xiàn)如何?CMU 這篇論文測明白了。

前段時間,谷歌發(fā)布了對標 OpenAI GPT 模型的競品 ——Gemini。這個大模型共有三個版本 ——Ultra(能力最強)、Pro 和 Nano。研究團隊公布的測試結(jié)果顯示,Ultra 版本在許多任務(wù)中優(yōu)于 GPT4,而 Pro 版本與 GPT-3.5 不相上下。

盡管這些對比結(jié)果對大型語言模型研究具有重要意義,但由于確切的評估細節(jié)和模型預(yù)測尚未公開,這限制了對測試結(jié)果的復現(xiàn)、檢測,難以進一步分析其隱含的細節(jié)。

為了了解 Gemini 的真正實力,來自卡內(nèi)基梅隆大學、BerriAI 的研究者對該模型的語言理解和生成能力進行了深入探索。

他們在十個數(shù)據(jù)集上測試了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 的文本理解和生成能力。具體來說,他們在 MMLU 上測試了模型回答基于知識的問題的能力,在 BigBenchHard 上測試了模型的推理能力,在 GSM8K 等數(shù)據(jù)集中測試了模型解答數(shù)學問題的能力,在 FLORES 等數(shù)據(jù)集中測試了模型的翻譯能力;在 HumanEval 等數(shù)據(jù)集中測試了模型的代碼生成能力;在 WebArena 中測試了模型作為遵循指令的智能體的能力。

下表 1 展示了對比的主要結(jié)果。總體而言,截至論文發(fā)稿日,在所有任務(wù)中,Gemini Pro 在準確性上接近 OpenAI GPT 3.5 Turbo,但仍然稍遜一籌。此外,他們還發(fā)現(xiàn),Gemini 和 GPT 比開源競品模型 Mixtral 表現(xiàn)要好一些。

在論文中,作者對每項任務(wù)都進行了深入的描述和分析。所有結(jié)果和可復現(xiàn)的代碼可參閱:https://github.com/neulab/gemini-benchmark

論文鏈接:https://arxiv.org/pdf/2312.11444.pdf

實驗設(shè)置

作者選擇了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 四個模型作為測試對象。

圖片

由于此前有研究在評估時存在實驗設(shè)置方面的差異,為確保測試公平,作者采取了完全相同的提示詞和評估協(xié)議重新運行了實驗。在大多數(shù)測評中,他們采用了提示詞和來自標準資源庫的評價標準。這些測試資源來自模型發(fā)布時附帶的數(shù)據(jù)集以及測評工具 Eleuther 等。其中,提示詞通常包含查詢、輸入、少量示例和思維鏈推理等。在某些特殊測評中,作者發(fā)現(xiàn)有必要對標準實踐進行小幅調(diào)整。調(diào)整偏差已在對應(yīng)的代碼儲存庫中執(zhí)行,請查閱論文原文。

這項研究的目標如下:

1. 通過可復現(xiàn)的代碼和完全透明的結(jié)果,提供對 OpenAI GPT 和 Google Gemini 模型能力的第三方客觀比較。

2. 深入研究測評結(jié)果,分析兩個模型在哪些領(lǐng)域中的表現(xiàn)更加突出。

基于知識的問答(Knowledge-based QA)

作者從 MMLU 數(shù)據(jù)集中選擇了 57 個基于知識的多項選擇問答任務(wù),涵蓋了 STEM 以及人文社科等各種主題。MMLU 共有 14,042 個測試樣本,已經(jīng)廣泛用于對大型語言模型的知識能力進行整體評估。

作者比較并分析了四個測試對象在 MMLU 上的整體表現(xiàn)(如下圖所示)、子任務(wù)表現(xiàn)以及輸出長度對表現(xiàn)的影響。

圖 1:使用 5 個樣本提示和思維鏈提示,各個模型在 MMLU 上的總體準確率。

從圖中可以看到,Gemini Pro 的準確性低于 GPT 3.5 Turbo,并且遠低于 GPT 4 Turbo。在使用思維鏈提示時,各模型表現(xiàn)差異不大。作者推測這是由于 MMLU 主要收錄的是基于知識的問答任務(wù),這些任務(wù)可能不會從更強的推理導向提示中顯著受益。

值得注意的是,MMLU 中的所有問題都是單選題,有 A 到 D 四個按順序排列的潛在答案。下圖中展示了每個模型選擇每個答案選項的比例。從圖中可以看到 Gemini 的答案分布非常傾斜,偏向于選擇最后的 D 選項。這與各版本的 GPT 給出的更加平衡的結(jié)果形成了對比。這可能表明,Gemini 沒有接受與多選題相關(guān)的大量指令調(diào)整,導致模型在答案排序方面存在偏見。

圖 2:被測模型預(yù)測的單選題答案的比例。

下圖展示了被測模型在 MMLU 測試集的子任務(wù)上的表現(xiàn)。與 GPT 3.5 相比,Gemini Pro 在大多數(shù)任務(wù)上的表現(xiàn)不佳。思維鏈提示降低了子任務(wù)之間的方差。

圖 3:被測模型在每個子任務(wù)上的準確率。

作者深入探討了 Gemini Pro 的強項和弱項。從圖 4 中可以觀察到,Gemini Pro 在人類性別(社會科學)、形式邏輯(人文科學)、初等數(shù)學(STEM) 和專業(yè)醫(yī)學(專業(yè)領(lǐng)域)任務(wù)中落后于 GPT 3.5。在 Gemini Pro 更擅長的兩個任務(wù)中,領(lǐng)先優(yōu)勢也很微弱。

圖 4:Gemini Pro 和 GPT 3.5 在 MMLU 上的優(yōu)勢任務(wù)。

Gemini Pro 在特定任務(wù)上的表現(xiàn)不佳可以歸因于兩個原因。首先,在某些情況下,Gemini 無法返回答案。在大多數(shù) MMLU 子任務(wù)中,API 響應(yīng)率超過 95%,但在道德(響應(yīng)率 85%)、人類性別(響應(yīng)率 28%)這兩個任務(wù)的相應(yīng)率明顯較低。這表明 Gemini 在一些任務(wù)中性能較低可能是由于輸入的內(nèi)容過濾器。其次,Gemini Pro 在解決形式邏輯和基礎(chǔ)數(shù)學任務(wù)所需的基本數(shù)學推理方面的表現(xiàn)稍差。

作者還分析了思維鏈提示中的輸出長度如何影響模型性能,如圖 5 所示。一般來說,更強大的模型傾向于進行更復雜的推理,因此會輸出更長的回答。與「對手」相比,Gemini Pro 有一個值得注意的優(yōu)勢:它的準確性受輸出長度的影響較小。當輸出長度超過 900 時,Gemini Pro 甚至優(yōu)于 GPT 3.5。然而,與 GPT 4 Turbo 相比,Gemini Pro 和 GPT 3.5 Turbo 很少能輸出長推理鏈。

圖片

圖 5:被測模型在 MMLU 上的輸出長度分析。

通用推理(General-purpose Reasoning)

在 BIG-Bench Hard 測試集中,作者對被測對象展開了通用推理能力的測評。BIG-Bench Hard 包含 27 個不同的推理任務(wù),如算術(shù)、符號和多語言推理、事實知識理解等任務(wù)。大多數(shù)任務(wù)由 250 個問題 - 答案對組成,少數(shù)任務(wù)的問題數(shù)量稍少一些。

圖 6 中展示的是被測模型的整體準確率??梢钥闯觯珿emini Pro 的準確率略低于 GPT 3.5 Turbo,遠低于 GPT 4 Turbo。相比之下,Mixtral 模型的準確率還要低得多。

圖 6:被測模型在 BIG-Bench-Hard 上的整體準確率。

作者更深入地探討了為什么 Gemini 通用推理整體表現(xiàn)不佳。首先,他們按問題的長度檢查了準確率。如圖 7 所示,Gemini Pro 在更長、更復雜的問題上表現(xiàn)不佳。而 GPT 模型,特別是 GPT 4 Turbo,即使在非常長的問題中, GPT 4 Turbo 的退步也非常小。這表明它的魯棒性很強,能夠理解更長和更復雜的提問和查詢。GPT 3.5 Turbo 的魯棒性一般。Mixtral 在問題長度方面表現(xiàn)穩(wěn)定,但整體準確率較低。

圖 7:被測模型在 BIG-Bench-Hard 上按問題長度劃分的準確率。

作者分析了被測模型在 BIG-Bench-Hard 具體任務(wù)中是否存在準確率的差異。圖 8 中展示了 GPT 3.5 Turbo 在哪些任務(wù)上比 Gemini Pro 表現(xiàn)更好。

在「追蹤變換物體的位置」的任務(wù)中,Gemini Pro 的表現(xiàn)特別糟糕。這些任務(wù)涉及人們交換物品并追蹤誰是某項物品的擁有者,但 Gemini Pro 經(jīng)常難以保持正確的順序。

圖片

圖 8:GPT 3.5 Turbo 優(yōu)于 Gemini Pro 的 BIG-Bench-Hard 子任務(wù) 。

在需要多步解的算術(shù)題、查找翻譯中的錯誤等任務(wù)中,Gemini Pro 遜于 Mixtral。

也有 Gemini Pro 優(yōu)于 GPT 3.5 Turbo 的任務(wù)。圖 9 展示了 Gemini Pro 以最大優(yōu)勢領(lǐng)先于 GPT 3.5 Turbo 的六個任務(wù)。這些任務(wù)是異構(gòu)的,包括需要世界知識的(sports_understanding)、操作符號堆棧(dyck_languages)、按字母順序?qū)卧~進行排序(word_sorting)以及解析表格(penguins_in_a_table)等。

圖 9:Gemini Pro 優(yōu)于 GPT 3.5 的 BIG-Bench-Hard 子任務(wù)。

作者進一步分析了被測模型在不同答案類型中的魯棒性,如圖 10 所示。Gemini Pro 在「Valid/Invalid」答案類型中的表現(xiàn)最差,該答案類型屬于任務(wù) formal_fallacies。有趣的是,該任務(wù)有 68.4% 的問題沒有回答響應(yīng)。然而,在其它(由 word_sorting 和 dyck_language 任務(wù)組成)的答案類型中,Gemini Pro 表現(xiàn)優(yōu)于所有 GPT 模型與 Mixtral。即 Gemini Pro 特別擅長重新排列單詞和按正確順序生成符號。另外,對于 MCQ 答案,有 4.39% 的問題被 Gemini Pro 阻止回應(yīng)。GPT 模型在這方面表現(xiàn)出色,Gemini Pro 難以與它們競爭。

圖片圖 10:被測模型在 BIG-Bench-Hard 上按答案類型劃分的準確性。

總之,似乎沒有哪個模型在特定任務(wù)上一馬當先。因此,在執(zhí)行通用推理任務(wù)時,不妨在 Gemini 和 GPT 模型中都嘗試一下,然后再決定使用哪個模型。

數(shù)學能力

為了評估被測模型的數(shù)學推理能力,作者選擇了四個數(shù)學問題基準測試集:

(1)GSM8K:小學數(shù)學基準測試;

(2)SVAMP :通過改變單詞順序生成問題來檢查魯棒推理能力;

(3)ASDIV:具有不同的語言模式和問題類型;

(4)MAWPS:包含算術(shù)和代數(shù)詞問題。

作者比較了 Gemini Pro 、GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 在四個數(shù)學問題測試集上的準確性,檢查了它們的整體性能、不同問題復雜度下的性能以及不同思維鏈深度下的性能。

圖 11 呈現(xiàn)了整體結(jié)果,Gemini Pro 在包含不同語言模式的 GSM8K、SVAMP 和 ASDIV 的任務(wù)中,準確性略低于 GPT 3.5 Turbo,遠低于 GPT 4 Turbo。對于 MAWPS 中的任務(wù),盡管所有被測模型的準確性都超過 90%,但 Gemini Pro 仍然略遜于 GPT 模型。在這個任務(wù)中,GPT 3.5 Turbo 以微弱的優(yōu)勢勝過了 GPT 4 Turbo。相比之下,Mixtral 模型的準確性遠低于其他模型。

圖片

圖 11:被測模型在四個數(shù)學推理測試集任務(wù)中的整體準確性。

圖 12 中展示了每個模型對問題長度的魯棒性。與 BIG-Bench Hard 中的推理任務(wù)類似,被測模型在回答較長的問題時,準確性有所下降。GPT 3.5 Turbo 在較短的題目上表現(xiàn)優(yōu)于 Gemini Pro,但退步的速度更快,Gemini Pro 在較長的題目的準確性上與 GPT 3.5 Turbo 類似,但仍稍稍落后。

圖片

圖 12:被測模型在四個數(shù)學推理測試集任務(wù)中,對于不同問題長度的生成答案的準確性。

此外,作者還觀察到當答案需要更長的思維鏈時,被測模型的準確性也有不同。如圖 13 所示,即使使用長推理鏈時,GPT 4 Turbo 也非常魯棒,而 GPT 3.5 Turbo、Gemini Pro 和 Mixtral 在 COT 長度不斷增加時表現(xiàn)出力不從心。通過分析,作者還發(fā)現(xiàn),在 COT 長度超過 100 的復雜例子中,Gemini Pro 優(yōu)于 GPT 3.5 Turbo,但在較短的例子中表現(xiàn)不佳。

圖片

圖 13:不同思維鏈長度下,各模型在 GSM8K 上的準確性。

圖 14 顯示了被測模型對于不同數(shù)字數(shù)量在生成答案時的準確性。作者根據(jù)答案中的數(shù)字數(shù)量是 1 個、2 個還是 3 個以上創(chuàng)建了三個「桶」(除了 MAWPS 任務(wù),該任務(wù)的答案沒有超過兩位數(shù)的數(shù)字)。如圖所示,GPT 3.5 Turbo 似乎對多位數(shù)的數(shù)學問題更加魯棒,而 Gemini Pro 在更多數(shù)字的問題上有所退化。


圖片

圖 14:各個模型在四個數(shù)學推理測試集任務(wù)中在答案數(shù)字數(shù)量不同時的準確性。

代碼生成

在這一部分,作者使用兩個代碼生成數(shù)據(jù)集 ——HumanEval 和 ODEX—— 來檢驗?zāi)P偷木幋a能力。前者測試模型對 Python 標準庫中有限的一組函數(shù)的基本代碼理解能力,后者測試模型使用整個 Python 生態(tài)系統(tǒng)中更廣泛的庫集的能力。這兩個問題的輸入都是用英語編寫的任務(wù)說明(通常帶有測試用例)。這些問題用來評估模型的語言理解能力、算法理解能力和初等數(shù)學能力??偟膩碚f,HumanEval 有 164 個測試樣本,ODEX 有 439 個測試樣本。

首先,從圖 15 所示的總體結(jié)果中,可以看到 Gemini Pro 在兩項任務(wù)上的 Pass@1 分數(shù)均低于 GPT 3.5 Turbo,也遠低于 GPT 4 Turbo。這些結(jié)果表明,Gemini 的代碼生成能力還有待提高。

圖片

圖 15:各個模型在代碼生成任務(wù)中的總體準確性。

其次,作者在圖 16 (a) 中分析了 gold solution 長度與模型性能之間的關(guān)系。解的長度可以在一定程度上說明相應(yīng)代碼生成任務(wù)的難度。作者發(fā)現(xiàn),Gemini Pro 在解的長度低于 100 時(如較容易的情況),實現(xiàn)了與 GPT 3.5 相當?shù)?Pass@1 分數(shù),但當解的長度變長時,它就會大幅落后。這與前幾節(jié)的結(jié)果形成了有趣的對比,在前幾節(jié)中,作者發(fā)現(xiàn)一般情況下,Gemini Pro 在英語任務(wù)中對較長的輸入和輸出都能表現(xiàn)穩(wěn)健。

圖片

作者還在圖 16 (b) 中分析了每個解所需的庫對模型性能的影響。在大多數(shù)庫用例中,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。不過,在 matplotlib 的用例中,它的性能要優(yōu)于 GPT 3.5 和 GPT 4,這表明它在通過代碼執(zhí)行繪圖可視化時具有更強的能力。

最后,作者展示了幾個具體的失敗案例,在這些案例中,Gemini Pro 在代碼生成方面的表現(xiàn)比 GPT 3.5 差。首先,他們注意到 Gemini 在正確選擇 Python API 中的函數(shù)和參數(shù)方面略遜一籌。例如,給定以下提示:  

圖片

Gemini Pro 生成了以下代碼,結(jié)果出現(xiàn)了類型不匹配錯誤:   

圖片

相比之下,GPT 3.5 Turbo 使用了以下代碼,達到了預(yù)期效果:  

圖片

此外,Gemini Pro 的錯誤比例較高,在這種情況下,執(zhí)行的代碼在語法上是正確的,但不能正確地與更復雜的意圖相匹配。例如,關(guān)于以下提示:   

圖片

Gemini Pro 創(chuàng)建了一種實現(xiàn)方法,只提取唯一的數(shù)字,而不刪除那些出現(xiàn)多次的數(shù)字。

圖片

機器翻譯

這組實驗使用 FLORES-200 機器翻譯基準評估了模型的多語言能力,特別是在各種語言對之間的翻譯能力。作者將重點放在 Robinson et al. (2023) 的分析所使用的 20 種語言的不同子集上,這些語言涵蓋不同程度的資源可用性和翻譯難度。作者對所有選定語言對的測試集中的 1012 個句子進行了評估。

在表 4 和表 5 中,作者對 Gemini Pro、GPT 3.5 Turbo 和 GPT 4 Turbo 與谷歌翻譯等成熟系統(tǒng)進行了比較分析。此外,他們還對 NLLB-MoE 進行了基準測試,NLLB-MoE 是領(lǐng)先的開源機器翻譯模型,以其廣泛的語種覆蓋而著稱。結(jié)果表明,谷歌翻譯總體上優(yōu)于其他模型,在 9 種語言上表現(xiàn)出色;其次是 NLLB,在 0/5-shot 設(shè)置下,在 6 種 / 8 種語言上表現(xiàn)出色。通用語言模型顯示出具有競爭力的性能,但在翻譯成非英語語言方面尚未超越專用機器翻譯系統(tǒng)。

圖片

表 4:各模型使用 0-shot 提示對所有語言進行機器翻譯的性能(chRF (%) 分數(shù))。最佳分數(shù)以粗體顯示,次佳分數(shù)以下劃線顯示。

表 5:各模型使用 5-shot 提示對所有語言進行機器翻譯的性能(chRF (%) 分數(shù))。最佳分數(shù)以粗體顯示,次佳分數(shù)以下劃線顯示。

圖 17 顯示了通用語言模型在不同語言對中的性能比較。與 GPT 3.5 Turbo 和 Gemini Pro 相比,GPT 4 Turbo 與 NLLB 表現(xiàn)出一致的性能偏差。GPT 4 Turbo 在低資源語言方面也有較大改進,而在高資源語言方面,兩種 LLM 的性能相似。相比之下,在 20 種語言中的 8 種語言上,Gemini Pro 的性能優(yōu)于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 種語言上取得了最高性能。不過,Gemini Pro 在大約 10 種語言對中表現(xiàn)出強烈的屏蔽響應(yīng)(block response)傾向。

圖片

圖 17:按語言對劃分的機器翻譯性能(chRF (%) 分數(shù))。

圖 18 顯示,Gemini Pro 在這些語言中的性能較低,這是因為它傾向于在置信度較低的場景中屏蔽響應(yīng)。如果 Gemini Pro 在 0-shot 或 5-shot 配置中產(chǎn)生「Blocked Response」錯誤,則該響應(yīng)被視為「屏蔽」。

圖片

圖 18:被 Gemini Pro 屏蔽的樣本數(shù)量。

仔細觀察圖 19 可以發(fā)現(xiàn),Gemini Pro 在置信度較高的無屏蔽樣本中略微優(yōu)于 GPT 3.5 Turbo 和 GPT 4 Turbo。具體來說,它在 5-shot 和 0-shot 設(shè)置下分別比 GPT 4 Turbo 多出 1.6 chrf 和 2.6 chrf,比 GPT 3.5 Turbo 多出 2.7 chrf 和 2 chrf。不過,作者對 GPT 4 Turbo 和 GPT 3.5 Turbo 在這些樣本上的性能進行的初步分析表明,這些樣本的翻譯通常更具挑戰(zhàn)性。Gemini Pro 在這些特定樣本上表現(xiàn)不佳,尤其明顯的是,Gemini Pro 0-shot 會屏蔽響應(yīng),而 5-shot 則不會,反之亦然。

圖片

圖 19:屏蔽和非屏蔽樣本的 chrf 性能(%)。

在對模型的整個分析過程中,作者觀察到,few-shot 提示一般都能適度提高平均性能,其 variance pattern 依次遞增:GPT 4 Turbo < GPT 3.5 Turbo < Gemini Pro。雖然 Gemini Pro 的 5-shot 提示在置信度高的語言中比 0-shot 提示有進步,但在某些語言中,如 hau_Latin,該模型的置信度明顯降低,導致應(yīng)答受阻(參見表 5)。

圖 20 顯示了按語系或 script 分類的明顯趨勢。一個重要的觀察結(jié)果是,Gemini Pro 在西里爾文字上的表現(xiàn)與其他機型相比具有競爭力,但在其他文字上的表現(xiàn)卻不盡如人意。GPT-4 在各種 script 上的表現(xiàn)突出,優(yōu)于其他模型,其中 few-shot 提示尤為有效。這種效果在使用梵文的語言中尤為明顯。

圖 20:各個模型在不同 script 上的表現(xiàn) (chrf (%))。

Web 智能體

最后,作者考察了每個模型作為網(wǎng)絡(luò)導航智能體的能力,這是一項需要長期規(guī)劃和復雜數(shù)據(jù)理解的任務(wù)。他們使用了模擬環(huán)境 WebArena,該環(huán)境成功的標準是執(zhí)行結(jié)果。賦予智能體的任務(wù)包括信息搜索、網(wǎng)站導航以及內(nèi)容和配置操作。任務(wù)涉及各種網(wǎng)站,包括電子商務(wù)平臺、社交論壇、協(xié)同軟件開發(fā)平臺(如 gitlab)、內(nèi)容管理系統(tǒng)和在線地圖。

作者測試了 Gemini-Pro 的總體成功率、不同任務(wù)的成功率、響應(yīng)長度、軌跡步數(shù)以及預(yù)測任務(wù)無法完成的傾向。表 6 列出了總體性能。Gemini-Pro 的表現(xiàn)與 GPT-3.5-Turbo 接近,但略遜一籌。與 GPT-3.5-Turbo 類似,當提示提到任務(wù)可能無法完成時(UA hint),Gemini-Pro 的表現(xiàn)更好。在有 UA hint 的情況下,Gemini-Pro 的總體成功率為 7.09%。

表 6:各個模型在 WebArena 上的表現(xiàn)。

如果按網(wǎng)站類型進行細分,如圖 21 所示,可以看到 Gemini-Pro 在 gitlab 和地圖上的表現(xiàn)不如 GPT-3.5-Turbo,而在購物管理、reddit 和購物網(wǎng)站上的表現(xiàn)則接近 GPT-3.5-Turbo。在多站點任務(wù)上,Gemini-Pro 的表現(xiàn)優(yōu)于 GPT-3.5-Turbo,這與之前的結(jié)果一致,即 Gemini 在各種基準的更復雜子任務(wù)上表現(xiàn)更好一些。


圖片

圖 21:模型在不同類型網(wǎng)站上的 Web 智能體成功率。

如圖 22 所示,一般來說,Gemini-Pro 把更多的任務(wù)預(yù)測為無法完成,尤其是在給出一個 UA hint 的情況下。Gemini-Pro 在給出 UA hint 的情況下,預(yù)測 80.6% 以上的任務(wù)無法完成,而 GPT-3.5-Turbo 只預(yù)測了 47.7%。需要注意的是,數(shù)據(jù)集中僅有 4.4% 的任務(wù)實際上是無法完成的,因此兩者都遠遠高估了無法完成的任務(wù)的實際數(shù)量。

圖片

圖 22:UA 預(yù)測數(shù)量。

同時,作者觀察到,Gemini Pro 更傾向于用較短的短語做出回應(yīng),在得出結(jié)論前采取較少的步驟。如圖 23 (a) 所示,Gemini Pro 有一半以上的軌跡少于 10 步,而 GPT 3.5 Turbo 和 GPT 4 Turbo 的大多數(shù)軌跡在 10 到 30 步之間。同樣,Gemini 的大部分回復長度不到 100 個字符,而 GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 的大部分回復長度超過 300 個字符(圖 23 (b))。Gemini 傾向于直接預(yù)測行動,而其他模型則會先進行推理,然后給出行動預(yù)測。

圖片

圖 23:模型在 WebArena 上的行為。

更多細節(jié)請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-12-20 22:17:19

GeminiGPT-3.5谷歌

2023-12-24 13:56:37

2024-05-20 07:50:00

谷歌模型

2024-05-20 15:40:00

AI數(shù)學

2024-08-02 14:58:00

2023-12-22 12:41:01

模型訓練

2025-02-14 08:00:00

人工智能Gemini 2.0LLM

2023-07-10 15:22:29

OpenAIGPT-3.5

2024-03-08 14:18:04

谷歌GPT3.5Gemini Pro

2024-04-25 08:57:04

2024-11-15 13:09:41

2025-02-06 09:28:00

2023-03-02 22:46:48

2023-12-14 13:04:00

訓練數(shù)據(jù)

2024-01-02 14:07:00

2025-04-16 09:30:16

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2023-12-21 13:26:13

谷歌Gemini大模型

2024-02-27 11:46:40

2023-12-09 14:30:50

點贊
收藏

51CTO技術(shù)棧公眾號