GPT-4 Turbo重回王座,ChatGPT免費(fèi)升級(jí)!數(shù)學(xué)暴漲10%/上下文全面碾壓
今天起,最新版的GPT-4 Turbo,正式向ChatGPT Plus用戶開放了!
圖片
有了GPT-4 Turbo加持后,ChatGPT寫作、數(shù)學(xué)、邏輯推理和編碼的能力得到提升。
小編小試,果然ChatGPT最新數(shù)據(jù)已經(jīng)更新到了4月。
圖片
根據(jù)基準(zhǔn)測試結(jié)果,GPT-4 Turbo在數(shù)學(xué)能力比上一代有了明顯改進(jìn)。
圖片
這也就不難理解,新版的GPT-4 Turbo今天再次登頂大模型排行榜。
圖片
就連奧特曼本人表示,「GPT-4現(xiàn)在更加智能,使用起來也更舒適」。
圖片
另外,據(jù)OpenAI介紹,GPT-4 Turbo在回復(fù)時(shí),變得更直接、減少啰嗦內(nèi)容,更加口語化。
圖片
一起看看,GPT-4 Turbo在基準(zhǔn)測試中能力如何?
數(shù)學(xué)性能提升近10%
在官方公開GitHub上,OpenAI放出了gpt-4-turbo-2024-04-09最新的評(píng)估結(jié)果。
主要在以下七大基準(zhǔn)上,對(duì)模型完成了評(píng)估:
- MMLU(測量大規(guī)模多任務(wù)語言理解)
- MATH(使用MATH數(shù)據(jù)集測量數(shù)學(xué)問題解決能力)
- GPQA(研究生級(jí)別的谷歌防護(hù)問答基準(zhǔn))
- DROP(需要對(duì)段落進(jìn)行離散推理的閱讀理解基準(zhǔn))
- MGSM(多語言小學(xué)數(shù)學(xué)基準(zhǔn)):語言模型作為多語言思維鏈推理者
- HumanEval(評(píng)估在代碼上訓(xùn)練的大型語言模型)
- MMMU(用于專家通用人工智能的大規(guī)模多學(xué)科多模態(tài)理解和推理基準(zhǔn))
在這個(gè)GitHub庫中,OpenAI主要使用零樣本、CoT設(shè)置,并采用簡單的指令,如「解決以下多項(xiàng)選擇題」。
這種提示方式更能真實(shí)反映模型在實(shí)際使用中的表現(xiàn)。
具體結(jié)果如下所示:
最新的gpt-4-turbo比以往的GPT-4系列,在性能上有著明顯的提升。
尤其數(shù)學(xué)方面,能力實(shí)現(xiàn)了近10%的躍階。
圖片
而在整體的比較中,新模型也基本上實(shí)現(xiàn)了對(duì)Claude 3 Opus和Gemini Pro 1.5的全面超越。
圖片
大海撈針比初代GPT-4提升4.3倍
同樣的,在大海撈針測試中,最新的gpt-4-turbo也是全方位地超越了此前的1106-preview。
圖片
眾所周知,上下文越長,對(duì)模型的挑戰(zhàn)就越大。
而gpt-4-turbo可以在處理長達(dá)64k Token的內(nèi)容時(shí),性能直接媲美預(yù)覽版在26k Token時(shí)的表現(xiàn)。
圖片
如果我們回顧一下GPT-4剛發(fā)布時(shí)的情況,也就是大約一年之前。
最新的gpt-4-turbo在32k的配置下,性能比初代GPT-4提高了約4.3倍。
順便一提,那個(gè)時(shí)候,模型能處理的上下文最高只到32k。
圖片
GPT-4 Turbo重回王座
前段時(shí)間,Anthropic手里的最強(qiáng)大模型Claude 3 Opus,可以說是霸榜各大榜單。
不過,就在今天,OpenAI憑借著全新的gpt-4-turbo,又把它從「榜一」的位置上拉了下來。
根據(jù)「LLM排位賽」最新的結(jié)果,GPT-4-Turbo再次超越Claude 3,奪得第一。
圖片
LMSYS Org從多個(gè)領(lǐng)域收集了超過8000張人類投票,發(fā)現(xiàn)GPT-4-Turbo在編程與推理方面的表現(xiàn),超越了其他模型。
為了深入了解,研究人員在Arena引入了「類別」功能。
通過這一新功能,可以對(duì)編程、長查詢處理和多語言能力等不同領(lǐng)域進(jìn)行了更詳盡的比較。
圖片
研究人員還對(duì)編程領(lǐng)域中包含代碼片段的所有對(duì)話進(jìn)行了標(biāo)記。在這一方面,GPT-4-Turbo展現(xiàn)出更強(qiáng)的性能。
圖片
類似的,Naman Jain也發(fā)現(xiàn),新版GPT-4-Turbo在LiveCodeBench(包含編程競賽題)上的表現(xiàn),提高了驚人的4.5分。
這類問題對(duì)目前的LLM來說挑戰(zhàn)很大,而OpenAI此次的更新,明顯是大幅提升了模型推理能力。
圖片
在長查詢領(lǐng)域(Token數(shù)量超過500),Claude-3 Opus表現(xiàn)最佳。
令人有些意想不到的是,Command R/R+在這一領(lǐng)域中也有著非常高的得分。
圖片
圖片
有趣的是,如果只涉及英語提示,排名會(huì)與整體略有不同。
在這一類別中,三種GPT-4-Turbo依然處于領(lǐng)先地位。
而這種變化的產(chǎn)生,是因?yàn)殡S著用戶基數(shù)的擴(kuò)大,語言使用從英語轉(zhuǎn)向包括中文在內(nèi)的多種語言。
圖片
而在應(yīng)對(duì)不同的語言時(shí),模型的表現(xiàn)也有所差異。
例如,在中文環(huán)境中,Claude-3 Opus排名第一。
圖片
以下是模型評(píng)分的置信區(qū)間 (CIs) :
圖片
以及整體的勝率熱圖:
圖片
參考資料: