谷歌再雪前恥,新Bard逆襲GPT-4沖上LLM排行榜第二!Jeff Dean高呼我們回來(lái)了
一夜之間,Bard逆襲GPT-4,性能直逼最強(qiáng)GPT-4 Turbo!
這個(gè)聽(tīng)起來(lái)似乎像夢(mèng)里的事情,確確實(shí)實(shí)地發(fā)生了。
就在昨天,谷歌首席Jeff Dean發(fā)推提前透露了谷歌的最新版模型——Gemini Pro-scale。
基于此,Bard相較于3月份的首次亮相,不僅在表現(xiàn)上有了顯著的提升,而且還具備了更多的能力。
可以看到,在最新的Gemini Pro-scale加持下,Bard直接躥升到了排行榜第二名的位置。
一口氣把之前的兩款GPT-4模型斬于馬下,甚至和排名第一的GPT-4 Turbo的差距也非常小。
雖然Jeff Dean并沒(méi)有具體闡述「scale」的含義,但從名稱上推測(cè),很可能是一個(gè)比初代Gemini Pro規(guī)模更大的版本。
而根據(jù)前段時(shí)間外媒曝出的內(nèi)部郵件,搭載Gemini Ultra的Bard Advanced已經(jīng)全面開(kāi)放給谷歌員工試用。
也就是說(shuō),距離谷歌最強(qiáng)模型的上線,已經(jīng)不遠(yuǎn)了。
隨著谷歌對(duì)Gemini Pro更新后不斷大幅上漲的表現(xiàn),也讓所有人對(duì)完全體Gemini Ultra的能力有了更多的期待。
不過(guò),新推出的Bard目前只接受了約3,000次評(píng)價(jià),而GPT-4的評(píng)價(jià)次數(shù)已高達(dá)30,000次。因此,這個(gè)結(jié)果后續(xù)很可能還會(huì)發(fā)生變動(dòng)。
但不管怎樣,這對(duì)于谷歌來(lái)說(shuō)是一項(xiàng)令人矚目的成就,也讓人對(duì)即將發(fā)布的、預(yù)期將超過(guò)Gemini Pro-Scale性能的最強(qiáng)AI模型Gemini Ultra充滿期待。
谷歌Bard超越GPT-4躍居第二
簡(jiǎn)單介紹一下,這個(gè)由UC伯克利主導(dǎo),CMU,UCSD等頂級(jí)高校共同參與創(chuàng)建的聊天機(jī)器人競(jìng)技場(chǎng)「Chatbot Arena」,是學(xué)術(shù)圈內(nèi)一個(gè)很權(quán)威的大模型對(duì)話能力排行榜。
榜單通過(guò)類似Moba游戲中的「排位賽」機(jī)制,讓各家大模型通過(guò)PvP的方式來(lái)排出性能高低。
期間,用戶會(huì)與模型(不知道具體型號(hào))進(jìn)行互動(dòng),并選擇他們更喜歡的回答。而這些投票將會(huì)決定模型在排行榜上的名次。
這種方式能夠有效地避免很多PvE基準(zhǔn)測(cè)試中可能出現(xiàn)的,通過(guò)「刷題」來(lái)提高成績(jī)的問(wèn)題,被業(yè)界認(rèn)為是一個(gè)比較客觀的大模型能力排行榜。
為了便于區(qū)分,LMSYS Org指出,目前Gemini Pro市面上總共有3個(gè)版本:
- Gemini Pro API:用戶可以通過(guò)谷歌云的Vertex AI API進(jìn)行訪問(wèn)
- Gemini Pro(dev)API:開(kāi)發(fā)者API可以通過(guò)谷歌 AI Studio進(jìn)行訪問(wèn)
- Bard(1月4日更新的Gemini Pro):是目前唯一可以訪問(wèn)到1月24日更新的Gemini Pro的方式
同時(shí),谷歌Bard項(xiàng)目的高級(jí)總監(jiān)Sadovsky也透露,排行榜上的Bard和Gemini Pro(API)是兩個(gè)在微調(diào)層面不同的模型,而且Bard可以檢索互聯(lián)網(wǎng)上的信息。
在ChatBot Arena中,1月24號(hào)更新的Bard由于支持檢索互聯(lián)網(wǎng),相比于之前放出的Gemini Pro(API)對(duì)于實(shí)時(shí)信息問(wèn)題的回復(fù)提升巨大。
從谷歌的這波更新可以看出,Gemini Pro的潛力似乎遠(yuǎn)遠(yuǎn)沒(méi)有被完全釋放,希望谷歌能再接再厲,對(duì)OpenAI一家獨(dú)大的格局形成挑戰(zhàn)。
以下是1月14號(hào)更新的Bard在ChatBot Arena中的成績(jī)的明細(xì):
模型A相對(duì)于模型B在所有非平局對(duì)決中獲勝的比例
不同模型組合間對(duì)決的次數(shù)統(tǒng)計(jì)(排除平局情況)
通過(guò)1000輪隨機(jī)抽樣對(duì)Elo評(píng)分進(jìn)行的自舉法(Bootstrap)估計(jì)
在假設(shè)等概率抽樣和不存在平局的情況下,相對(duì)于所有其他模型的平均勝率
Elo評(píng)分系統(tǒng)
Elo等級(jí)分制度(Elo rating system)是一種計(jì)算玩家相對(duì)技能水平的方法,廣泛應(yīng)用在競(jìng)技游戲和各類運(yùn)動(dòng)當(dāng)中。其中,Elo評(píng)分越高,那么就說(shuō)明這個(gè)玩家越厲害。
比如英雄聯(lián)盟、Dota 2以及吃雞等等,系統(tǒng)給玩家進(jìn)行排名的就是這個(gè)機(jī)制。
舉個(gè)例子,當(dāng)你在英雄聯(lián)盟里面打了很多場(chǎng)排位賽后,就會(huì)出現(xiàn)一個(gè)隱藏分。這個(gè)隱藏分不僅決定了你的段位,也決定了你打排位時(shí)碰到的對(duì)手基本也是類似水平的。
而且,這個(gè)Elo評(píng)分的數(shù)值是絕對(duì)的。也就是說(shuō),當(dāng)未來(lái)加入新的聊天機(jī)器人時(shí),我們依然可以直接通過(guò)Elo的評(píng)分來(lái)判斷哪個(gè)聊天機(jī)器人更厲害。
具體來(lái)說(shuō),如果玩家A的評(píng)分為Ra,玩家B的評(píng)分為Rb,玩家A獲勝概率的精確公式(使用以10為底的logistic曲線)為:
然后,玩家的評(píng)分會(huì)在每場(chǎng)對(duì)戰(zhàn)后線性更新。
假設(shè)玩家A(評(píng)分為Ra)預(yù)計(jì)獲得Ea分,但實(shí)際獲得Sa分。更新該玩家評(píng)分的公式為:
網(wǎng)友熱議
對(duì)此,網(wǎng)友提問(wèn):現(xiàn)在能夠訪問(wèn)的Bard就是這個(gè)排名第二的Bard了嗎?
谷歌官方回復(fù),是的,而且現(xiàn)在訪問(wèn)的Bard比排行榜的上的Bard還能支持更多的像地圖擴(kuò)展等應(yīng)用。
不過(guò)還是有網(wǎng)友吐槽,即使在PvP排行榜上Bard已經(jīng)取得了很好的成績(jī),但是對(duì)于理解用戶需求和解決實(shí)際問(wèn)題的能力,Bard和GPT-4依然還有很大差距。
也有網(wǎng)友認(rèn)為,用能聯(lián)網(wǎng)的Bard和離線的GPT-4打有失公平。甚至,就這樣還沒(méi)打過(guò)……
而最有意思的,還要數(shù)網(wǎng)友在排行榜中發(fā)現(xiàn)的「華點(diǎn)」了:號(hào)稱是GPT-4最大競(jìng)品的Claude居然越更新越弱了。
對(duì)此,之前有分析認(rèn)為,Anthropic一直在大力發(fā)展的與人類對(duì)齊,會(huì)嚴(yán)重影響模型的性能。
GPT-4 Turbo超長(zhǎng)上下文A/B測(cè)試
有趣的是,這個(gè)連Jeff Dean都親自下場(chǎng)的「刷榜」,正巧就在OpenAI連發(fā)5款新模型的第二天。
根據(jù)OpenAI的介紹,新版GPT-4 Turbo——gpt-4-0125-preview,不僅大幅改善了模型「偷懶」的情況,而且還極大地提升了代碼生成的能力。
不過(guò),正如大家對(duì)Bard的懷疑,GPT-4這次到底有沒(méi)有變強(qiáng)也有待驗(yàn)證。
對(duì)此,AI公司Smol的創(chuàng)始人Shawn Wang,就在超過(guò)100k單詞的超長(zhǎng)上下文中,對(duì)比測(cè)試了新舊GPT4-Turbo的總結(jié)能力。
Wang表示,兩次測(cè)試使用的是完全相同提示詞,以及基本相同的語(yǔ)料庫(kù)。
雖然沒(méi)有嚴(yán)格嚴(yán)格,但每個(gè)模型都進(jìn)行了超過(guò)300次的API調(diào)用,因此對(duì)于總結(jié)任務(wù)而言,這一結(jié)果還是具有一定參考價(jià)值的。
結(jié)果顯示,2024年1月的GPT4-Turbo花費(fèi)了19分鐘來(lái)生成20,265個(gè)單詞,相比之下,2023年11月的用16分鐘生成了18,884個(gè)單詞。
也就是說(shuō),新模型的生成速度大約慢了 18%,且生成文本的長(zhǎng)度平均偏長(zhǎng)約7%。
質(zhì)量方面:
- 2024年1月的模型在主題選擇上略有改善,但仍存在問(wèn)題
- 2023年11月的模型會(huì)產(chǎn)生更多錯(cuò)誤信息
- 2024年1月的模型在總結(jié)中添加小標(biāo)題的能力略有提升
- 2024年1月的模型出現(xiàn)了一次嚴(yán)重的格式錯(cuò)誤,而這在之前是極為罕見(jiàn)的
- 2023年11月的模型文本詳情更加豐富
總體而言,新版GPT4-Turbo在總結(jié)這一應(yīng)用場(chǎng)景上有所退步。
左側(cè):2023年11月;右側(cè):2024年1月(左右滑動(dòng)查看全部)
OpenAI最后的「開(kāi)源遺作」兩周年
不得不說(shuō),AI領(lǐng)域的發(fā)展過(guò)于迅猛,甚至讓人對(duì)時(shí)間的流速都產(chǎn)生了錯(cuò)覺(jué)。
今天,英偉達(dá)高級(jí)科學(xué)家Jim Fan發(fā)推紀(jì)念了InstructGPT發(fā)布二周年。
在這里,OpenAI定義了一套標(biāo)準(zhǔn)流程:預(yù)訓(xùn)練 -> 監(jiān)督式微調(diào) -> RLHF。直到今天,這依然是大家遵循的基本策略(盡管有些許變化,比如DPO)。
它不僅僅是大語(yǔ)言模型從學(xué)術(shù)探索(GPT-3)到轉(zhuǎn)化為具有實(shí)際影響力的產(chǎn)品(ChatGPT)的關(guān)鍵轉(zhuǎn)折點(diǎn),而且也是最后一篇OpenAI詳細(xì)說(shuō)明他們?nèi)绾斡?xùn)練前沿模型的論文。
論文地址:https://arxiv.org/abs/2203.02155
- InstructGPT在2022年的NeurIPS會(huì)議上首次亮相,但它并不是RLHF的發(fā)明者。實(shí)際上,相關(guān)博客將讀者引向了OpenAI團(tuán)隊(duì)在2017年完成的原始RLHF研究。
這項(xiàng)研究最初的目的是解決模擬機(jī)器人領(lǐng)域中難以明確定義的任務(wù)——通過(guò)一名人類標(biāo)注者提供的900個(gè)二選一偏好,RLHF讓一個(gè)簡(jiǎn)單的「跳躍」機(jī)器人在模擬環(huán)境中學(xué)會(huì)了后空翻。
論文地址:https://arxiv.org/abs/1706.03741v4
- 模型提供了三種規(guī)模:1.3B、6B、175B。與舊的、需要復(fù)雜提示設(shè)計(jì)的GPT-3-175B相比,標(biāo)注者明顯更喜歡Instruct-1.3B。微軟最知名的「小模型」Phi-1也是1.3B。
- InstructGPT展示了如何精彩地呈現(xiàn)研究成果。三個(gè)步驟的圖表清晰易懂,并且成為AI領(lǐng)域最標(biāo)志性的圖像之一。引言部分直接了當(dāng),用粗體突出了8個(gè)核心觀點(diǎn)。對(duì)局限性和偏見(jiàn)的討論實(shí)事求是、坦誠(chéng)直接。