自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

GPT-4 Turbo重回王座，ChatGPT免費(fèi)升級(jí)！數(shù)學(xué)暴漲10%/上下文全面碾壓

作者：新智元 2024-04-12 17:41:28

ChatGPT也能用上最強(qiáng)的GPT-4 Turbo了！今天，新版GPT-4 Turbo再次重奪大模型排行榜王座，超越了Claude 3 Opus。而且，新模型在處理64k長上下時(shí)，性能直接達(dá)到了舊版在26k時(shí)的性能。

今天起，最新版的GPT-4 Turbo，正式向ChatGPT Plus用戶開放了！

圖片

有了GPT-4 Turbo加持后，ChatGPT寫作、數(shù)學(xué)、邏輯推理和編碼的能力得到提升。

小編小試，果然ChatGPT最新數(shù)據(jù)已經(jīng)更新到了4月。

圖片

根據(jù)基準(zhǔn)測試結(jié)果，GPT-4 Turbo在數(shù)學(xué)能力比上一代有了明顯改進(jìn)。

圖片

這也就不難理解，新版的GPT-4 Turbo今天再次登頂大模型排行榜。

圖片

就連奧特曼本人表示，「GPT-4現(xiàn)在更加智能，使用起來也更舒適」。

圖片

另外，據(jù)OpenAI介紹，GPT-4 Turbo在回復(fù)時(shí)，變得更直接、減少啰嗦內(nèi)容，更加口語化。

圖片

一起看看，GPT-4 Turbo在基準(zhǔn)測試中能力如何？

數(shù)學(xué)性能提升近10%

在官方公開GitHub上，OpenAI放出了gpt-4-turbo-2024-04-09最新的評(píng)估結(jié)果。

主要在以下七大基準(zhǔn)上，對(duì)模型完成了評(píng)估：

MMLU（測量大規(guī)模多任務(wù)語言理解）
MATH（使用MATH數(shù)據(jù)集測量數(shù)學(xué)問題解決能力）
GPQA（研究生級(jí)別的谷歌防護(hù)問答基準(zhǔn)）
DROP（需要對(duì)段落進(jìn)行離散推理的閱讀理解基準(zhǔn)）
MGSM（多語言小學(xué)數(shù)學(xué)基準(zhǔn)）：語言模型作為多語言思維鏈推理者
HumanEval（評(píng)估在代碼上訓(xùn)練的大型語言模型）
MMMU（用于專家通用人工智能的大規(guī)模多學(xué)科多模態(tài)理解和推理基準(zhǔn)）

在這個(gè)GitHub庫中，OpenAI主要使用零樣本、CoT設(shè)置，并采用簡單的指令，如「解決以下多項(xiàng)選擇題」。

這種提示方式更能真實(shí)反映模型在實(shí)際使用中的表現(xiàn)。

具體結(jié)果如下所示：

最新的gpt-4-turbo比以往的GPT-4系列，在性能上有著明顯的提升。

尤其數(shù)學(xué)方面，能力實(shí)現(xiàn)了近10%的躍階。

圖片

而在整體的比較中，新模型也基本上實(shí)現(xiàn)了對(duì)Claude 3 Opus和Gemini Pro 1.5的全面超越。

圖片

大海撈針比初代GPT-4提升4.3倍

同樣的，在大海撈針測試中，最新的gpt-4-turbo也是全方位地超越了此前的1106-preview。

圖片

眾所周知，上下文越長，對(duì)模型的挑戰(zhàn)就越大。

而gpt-4-turbo可以在處理長達(dá)64k Token的內(nèi)容時(shí)，性能直接媲美預(yù)覽版在26k Token時(shí)的表現(xiàn)。

圖片

如果我們回顧一下GPT-4剛發(fā)布時(shí)的情況，也就是大約一年之前。

最新的gpt-4-turbo在32k的配置下，性能比初代GPT-4提高了約4.3倍。

順便一提，那個(gè)時(shí)候，模型能處理的上下文最高只到32k。

圖片

GPT-4 Turbo重回王座

前段時(shí)間，Anthropic手里的最強(qiáng)大模型Claude 3 Opus，可以說是霸榜各大榜單。

不過，就在今天，OpenAI憑借著全新的gpt-4-turbo，又把它從「榜一」的位置上拉了下來。

根據(jù)「LLM排位賽」最新的結(jié)果，GPT-4-Turbo再次超越Claude 3，奪得第一。

圖片

LMSYS Org從多個(gè)領(lǐng)域收集了超過8000張人類投票，發(fā)現(xiàn)GPT-4-Turbo在編程與推理方面的表現(xiàn)，超越了其他模型。

為了深入了解，研究人員在Arena引入了「類別」功能。

通過這一新功能，可以對(duì)編程、長查詢處理和多語言能力等不同領(lǐng)域進(jìn)行了更詳盡的比較。

圖片

研究人員還對(duì)編程領(lǐng)域中包含代碼片段的所有對(duì)話進(jìn)行了標(biāo)記。在這一方面，GPT-4-Turbo展現(xiàn)出更強(qiáng)的性能。

圖片

類似的，Naman Jain也發(fā)現(xiàn)，新版GPT-4-Turbo在LiveCodeBench（包含編程競賽題）上的表現(xiàn)，提高了驚人的4.5分。

這類問題對(duì)目前的LLM來說挑戰(zhàn)很大，而OpenAI此次的更新，明顯是大幅提升了模型推理能力。

圖片

在長查詢領(lǐng)域（Token數(shù)量超過500），Claude-3 Opus表現(xiàn)最佳。

令人有些意想不到的是，Command R/R+在這一領(lǐng)域中也有著非常高的得分。

圖片

圖片

有趣的是，如果只涉及英語提示，排名會(huì)與整體略有不同。

在這一類別中，三種GPT-4-Turbo依然處于領(lǐng)先地位。

而這種變化的產(chǎn)生，是因?yàn)殡S著用戶基數(shù)的擴(kuò)大，語言使用從英語轉(zhuǎn)向包括中文在內(nèi)的多種語言。

圖片

而在應(yīng)對(duì)不同的語言時(shí)，模型的表現(xiàn)也有所差異。

例如，在中文環(huán)境中，Claude-3 Opus排名第一。

圖片

以下是模型評(píng)分的置信區(qū)間 (CIs) ：

圖片

以及整體的勝率熱圖：

圖片

參考資料：

https://twitter.com/OpenAI/status/1778574613813006610

https://twitter.com/lmsysorg/status/1778555678174663100

責(zé)任編輯：武曉燕來源：新智元

GPT-4 Turbo Claude

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營