力壓70B Llama 3,Gemma 2成最強開源模型!大佬質(zhì)疑用榜單prompt微調(diào)引全網(wǎng)熱議
谷歌出手,果然非同凡響。
Gemma 2上周剛剛發(fā)布,就在LMSYS競技場上取得了亮眼的成績。
在整體評分上Gemma 2拿到了開源模型最高分,而且用27B的參數(shù)「以小搏大」,超過了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量級的知名模型。
開源模型的頭把交椅真的要易主Gemma了?
對于這個成績,谷歌研究院首席科學家Jeff Dean也發(fā)文慶祝。
很高興看到新版Gemma-2-27B模型成為LMSYS上最好的開源模型(擊敗了一些相當大的模型)。
我們認為,27B對于很多場景來說確實是一個非常好的規(guī)模,而Gemma-2-27B也是一個非常好的模型!
不僅是總體評分,在LMSYS昨天剛發(fā)布的「多輪對話」排行榜上,Gemma 2的表現(xiàn)依舊強勁。
LMSYS表示,LLM的多輪對話在當今許多應用場景中非常重要。
在競技場的投票中,多輪對話的占比為14%,占到了不可忽視的比例。
因此他們推出了新的排行類別「多輪對話」,其中包括兩輪或多輪的測試,以衡量模型在更長時間內(nèi)交互的能力。
在這個全新的排行榜中,Claude家族的排名顯著提升。
總分屈居亞軍的Claude 3.5 Sonnet,成功地與GPT-4o并列第一;Claude 3 Opus也從原來的第8名躍居第三。
我們本次的主角Gemma 2也實現(xiàn)了2個名次的進步,進入前十行列,而且壓了Llama 3-70B-Instruct一頭。
在Gemma 2放出9B和27B兩個版本的同時,DeepMind研究員Clement在推特上透露,接下來還會有2B版本和大家見面!
曾經(jīng)只靠開源「一招鮮」的Meta終于迎來了強勁對手。Gemma 2和Llama 3的競爭想必會在未來一段時間內(nèi)持續(xù)下去。
Gemma為什么這么強?
為什么27B的Gemma 2能打敗70B的Llama 3?谷歌究竟用了什么技術(shù)實現(xiàn)如此高的參數(shù)效率?
或許我們可以從官方發(fā)布的技術(shù)報告中找到蛛絲馬跡。
報告地址:https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/
訓練數(shù)據(jù)方面,可想而知,并沒有具體的數(shù)據(jù)來源和組成,只有數(shù)據(jù)量。
由于Gemma既沒有多模態(tài)又不針對多語言任務,因此訓練語料只包含各種類型的文本和代碼,且主要語言為英語。
27B模型的訓練數(shù)據(jù)有13萬億token,9B模型和2.6B模型則分別為8萬億、2萬億token。
架構(gòu)上,Gemma 2從Gemini團隊和Gemma 1沿用了很多方面,包括旋轉(zhuǎn)位置編碼(RoPE)、SentencePiece分詞器、Logit軟上限、GeGLU激活函數(shù)等等。
相比Gemma 1,Gemma 2采用了更深的網(wǎng)絡(luò),且在某些部分做了更新——
局部滑動窗口和全局注意力
Gemma 2交替使用局部滑動窗口和全局注意力,滑動窗口大小設(shè)置為4096 token,而全局注意力層的設(shè)置為8192 token。
這種方法在正確捕捉文本細節(jié)的同時,又能保持對上下文和全局的正確理解。
知識蒸餾
能夠訓練出有競爭力性能的9B和27B模型,成功的知識蒸餾過程估計是最為重要的環(huán)節(jié)。
傳統(tǒng)訓練大語言模型的方法主要是根據(jù)之前的token,預測下一個token,需要大量的數(shù)據(jù)進行訓練。
但是,人類的學習過程并不依賴走量的知識輸入。比如,一位學生由于閱讀原著的需要學習一門外語,他并不需要看遍所有的書籍,只需要以一本書為綱,通過理解后融會貫通。
而知識蒸餾法與人的學習過程更加類似。一個小模型向另一個已經(jīng)進行過預訓練的大模型學習,通過這種方式助產(chǎn)小模型對于token的預測。
站在老師模型的肩膀上,學生模型能用較少的訓練數(shù)據(jù)、更少的參數(shù)量提升性能。
用LMSYS數(shù)據(jù)微調(diào),引AI2研究員質(zhì)疑
開源模型界終于在Llama之后迎來了Gemma 2這個最新的扛把子選手,就在大家忙著興奮的同時,Allen AI的研究員Nathan Lambert冷靜地在技術(shù)報告中發(fā)現(xiàn)了華點:
微調(diào)數(shù)據(jù)的來源包括LMSYS的聊天數(shù)據(jù)集!
似乎是預想到了可能的質(zhì)疑,論文中特意強調(diào)只使用了prompt,把答案剔出去了。
Lambert依舊不認可這種行為。他發(fā)了一篇推特,疑惑的語氣中帶著一絲嘲諷:為了在競技場上刷分數(shù),你們谷歌團隊挺有想象力的。
這位Nathan Lambert其實算是LLM領(lǐng)域比較資深的專業(yè)人士,他博士畢業(yè)于UC伯克利大學,在DeepMind和FAIR都有實習經(jīng)歷。
針對Lambert的質(zhì)疑,LMSYS隨后回復了一篇意義不明的超長推特,似乎透露出了為谷歌辯護的隱晦立場。
推特全文如下:
從一開始,Chatbot Arena的使命就是通過人類偏好來解決LLM的評估問題。
通過開放我們的數(shù)據(jù)集和論文,我們希望社區(qū)能研究真實世界的prompt,并利用這些數(shù)據(jù)改進模型(就像ImageNet的訓練集一樣)。
我們相信,通過實時和新鮮的用戶投票,Arena比靜態(tài)基準測試如MMLU更不容易過擬合。
現(xiàn)在,有些人可能對以下兩個方面存在質(zhì)疑——(1)prompt重復的程度和( 2)數(shù)據(jù)分布。這正是我們開放數(shù)據(jù)和論文研究的原因。
我們的Llama-3博客文章顯示,經(jīng)過去重之后,大約10%的重復對結(jié)果的影響很小。此外,論文還包括對prompt分布的主題建模,展現(xiàn)了跨語言的多樣化使用案例。
展望未來,我們計劃深入了解數(shù)據(jù)的新鮮度和分布。也歡迎大家用新任務來挑戰(zhàn)模型,研究我們的100萬prompt和偏好數(shù)據(jù),或者加入我們的Kaggle挑戰(zhàn)。
這有些讓人摸不著頭腦,既說「用數(shù)據(jù)改進模型是受歡迎的」,又說「我們開放數(shù)據(jù)和論文是為了回應質(zhì)疑」。
發(fā)帖的Lambert也同樣被搞糊涂了,他進一步闡明了自己的立場。
「感覺我們討論的不是同一件事,我的觀點依舊成立。很可能有更多的人也在這樣做,但我們并不知道。」
LMSYS最新回復的內(nèi)容更加讓人內(nèi)心復雜——
「對不起,雖然我貼上了你的推特,但不是在特意回復你。」
對于微調(diào)應不應該使用LMSYS數(shù)據(jù)這個問題,評論區(qū)的網(wǎng)友也吵得熱火朝天。
有些人覺得Lambert的質(zhì)疑毫無道理。畢竟LMSYS公開了數(shù)據(jù)集,用來做微調(diào)有什么不可以的?而且只使用了prompt,答案是教師模型生成的。
畢竟大家都在看LMSYS的聊天機器人Arena的分數(shù),如果大家都不用這個數(shù)據(jù)才比較出乎意料。
這個立場得到了大部分人的認同。雖然谷歌是為數(shù)不多的坦誠,敢把用了LMSYS數(shù)據(jù)這件事寫進論文,但他們絕對不是第一個使用這些數(shù)據(jù)的人。
「我打賭GPT-4o和Llama 3也這么干了?!?/span>
畢竟在一段時間內(nèi),LMSYS競技場曾經(jīng)是唯一可信的基準測試。
而這也正是Lambert所擔心的——LMSYS是業(yè)界為數(shù)不多的得到大多數(shù)人認可的基準測試,如果大家再用它的數(shù)據(jù)微調(diào)甚至訓練,豈不很快又會失去公信力?
更糟糕的情況是,不是每一個模型都像Gemma 2這樣會承認這件事。
不少觀點比較中肯的網(wǎng)友也點出了這一點。
「我相信這會降低Arena的信噪比。」
看來在基準測試領(lǐng)域,重復的歷史總在不斷上演,而那個金句也總是適用——
「當一個衡量標準成為目標時,它就不再是一個好的衡量標準了?!?/span>