UC伯克利LLM準中文排行榜來了!GPT-4穩(wěn)居第一,國人開源RNN模型沖進前六
前段時間,來自LMSYS Org(UC伯克利主導)的研究人員搞了個大新聞——大語言模型版排位賽!
這次,團隊不僅帶來了4位新玩家,而且還有一個(準)中文排行榜。
- OpenAI GPT-4
- OpenAI GPT-3.5-turbo
- Anthropic Claude-v1
- RWKV-4-Raven-14B(開源)
毫無疑問,只要GPT-4參戰(zhàn),必定是穩(wěn)居第一。
不過,出乎意料的是,Claude不僅超過了把OpenAI帶上神壇的GPT-3.5位列第二,而且只比GPT-4差了50分。
相比之下,排名第三的GPT-3.5只比130億參數(shù)的最強開源模型Vicuna高了72分。
而140億參數(shù)的「純RNN模型」RWKV-4-Raven-14B憑借著卓越的表現(xiàn),超越一眾Transformer模型排到了第6——除Vicuna模型外,RWKV在與所有其他開源模型的非平局比賽中贏得了超過50%的比賽。
此外,團隊還分別制作了「僅英語」和「非英語」(其中大部分是中文)這兩個單獨的排行榜。
可以看到,不少模型的排位都出現(xiàn)了明顯的變化。
比如,用更多中文數(shù)據(jù)訓練的ChatGLM-6B確實表現(xiàn)更好,而GPT-3.5也成功超越Claude排到了第二的位置。
本次更新的主要貢獻者是盛穎、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。
盛穎是LMSYS Org的3個創(chuàng)始人之一(另外兩位是Lianmin Zheng和Hao Zhang),斯坦福大學計算機科學系的博士生。
她也是之前爆火的、可以在單GPU上可以跑175B模型推理的系統(tǒng)FlexGen的一作,目前已獲8k星。
論文地址:https://arxiv.org/abs/2303.06865
項目地址:https://github.com/FMInference/FlexGen
個人主頁:https://sites.google.com/view/yingsheng/home
「開源」VS「閉源」
在社區(qū)的幫助下,團隊共收集了13k條匿名投票,并且有了一些有趣的發(fā)現(xiàn)。
專有與開源的差距
在三個專有模型中,Anthropic的Claude模型比GPT-3.5-turbo更受用戶歡迎。
而且,Claude在與最強大的GPT-4競爭時,也表現(xiàn)得非常有競爭力。
從下面這個勝率圖來看,GPT-4和Claude之間的66場非平局比賽中,Claude贏得了32場(48%)比賽。
所有非平局A vs B對戰(zhàn)中,模型A勝利的比例
然而,其他開源模型與這三個專有模型之間,依然存在著很大的差距。
特別是,GPT-4以1274的Elo分數(shù)領(lǐng)跑排行榜。這比榜單上最好的開源替代——Vicuna-13B——要高出近200分。
在去掉平局后,GPT-4在與Vicuna-13B對戰(zhàn)時贏得了82%的比賽,甚至在與前一代GPT-3.5-turbo對戰(zhàn)時贏得了79%的比賽。
然而,值得注意的是,排行榜上的這些開源模型通常具有比專有模型更少的參數(shù),范圍在30億 - 140億之間。
實際上,最近在LLM和數(shù)據(jù)策劃方面的進展使得使用較小模型取得顯著性能改進成為可能。
谷歌的最新PaLM 2就是一個很好的例子:我們知道PaLM 2在使用較小模型大小時,比其前一代實現(xiàn)了更好的性能。
因此,團隊對開源語言模型迎頭趕上充滿樂觀。
GPT-4在何時會「翻車」?
在下圖中,用戶提出了一個需要仔細推理和規(guī)劃的棘手問題。雖然Claude和GPT-4提供了類似的答案,但Claude的回應稍微好一些。
然而,由于采樣的隨機性,團隊發(fā)現(xiàn)這種情況并不能總能復刻。有時GPT-4也能像Claude一樣給出相同的順序,但在這次生成試驗中失敗了。
另外,團隊注意到,當使用OpenAI API和ChatGPT接口時,GPT-4的行為略有不同,這可能是由于不同的提示、采樣參數(shù)或其他未知因素導致的。
用戶更喜歡Claude而不是GPT-4的一個例子
在下圖中,盡管Claude和GPT-4都具有驚人的能力,但它們?nèi)栽谔幚磉@類復雜的推理問題上掙扎。
一個用戶認為Claude和GPT-4都錯了的例子
除了這些棘手的情況,還有許多并不需要復雜推理或知識的簡單問題。
在這種情況下,像Vicuna這樣的開源模型可以與GPT-4表現(xiàn)相當,因此我們可能可以使用稍微弱一些(但更小或更便宜)的大型語言模型(LLM)來替代像GPT-4這樣更強大的模型。
Elo分數(shù)的變化
自從三個強大的專有模型參與以來,聊天機器人競技場的競爭從未如此激烈。
由于在與專有模型對戰(zhàn)時,開源模型輸?shù)袅瞬簧俦荣悾虼怂鼈兊腅lo分數(shù)都有所下降。
最后,團隊還計劃開放一些API,讓用戶可以注冊自己的聊天機器人來參加排位賽。