自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ul id="ggiyi"></ul>

<var id="ggiyi"><button id="ggiyi"><center id="ggiyi"></center></button></var>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

GPT-4王冠沒掉！Claude 3競技場人類投票成績出爐：僅居第三

2024-03-08 13:02:56

短短3天內，20000張投票，將榜單的流量推向空前。最終，Claude 3最強的“大杯”模型Opus得分1233，成為第一個能和GPT-4-Turbo一較高下的選手。

Claude 3的競技場排名終于來了：

短短3天內，20000張投票，將榜單的流量推向空前。

最終，Claude 3最強的“大杯”模型Opus得分1233，成為第一個能和GPT-4-Turbo一較高下的選手。

“中杯”Sonnet也還不錯，和GPT-4的兩個舊版本不相上下。

圖片

不過總的來說，還是GPT-4系列占據上風。

Claude 3的表現(xiàn)和宣傳有些許出入。如網友總結：

GPT-4還是大模型之王！

但，免費的“中杯”Claude 3（Sonnet）更物超所值。

圖片

大模型競技場出爐，“新王”排第三

Claude 3發(fā)布時官方的宣傳是全面超過了GPT-4，但沒提是哪個版本的GPT-4。

圖片

競技場榜單（LMSYS Chatbot Arena Leaderboard）的最新更新，幫咱摸清了。

來看詳細情況。

排在第一名的是OpenAI去年11月推出的GPT-4 Turbo，也就是：

GPT-4-1106-preview。

它功能更強價格也更便宜，具有128k上下文，訓練數據從此前的2021年9月更新到2023年4月。

與它并列第一的是GPT-4 Turbo最新的版本，今年一月發(fā)布的：

GPT-4-0125-preview。

它的訓練數據更廣，擴展到了2023年12月。

兩者均取得了1251的分數。

接著才是Claude 3（訓練數據截止到2023年8月）。

它的最強版本Opus得分1233，比GPT-4 Turbo低了18分。

圖片

這個差距相比起來不算太大，畢竟再往下看：

它比GPT-4的兩個版本（0314、0613）分別高了48分、72分。

至于中等性能的Claude 3 Sonnet，則排名第6，位于GPT-4這兩個版本之間：

不過只比0314版低5分，大有潛力一舉超越。

圖片

所以總的來說，官方宣傳的也算沒大毛病，全面超越老版GPT-4，但離GPT-4 Turbo還有點距離，盡管不算太大。

——從此榜單的評比機制等情況來看，它的結果還是相當有業(yè)內認可度的。

它由“小羊駝”（Vicuna）的作者團隊發(fā)起。

但裁判官不是“小羊駝”，更不是GPT-4，而是基于人類偏好。

詳細來說，也就我們隨機向兩個匿名模型提出任意問題，然后評價它們各自的回答，把票投給更好的那一個。

圖片

如果一輪投不出，咱可以選擇繼續(xù)提問。如果聊天中模型不小心透露了自己的身份，投票則作廢。

特別的，計分規(guī)則采用Elo機制來保證公平（玩王者榮耀的朋友都熟）。

舉個例子：如果某個模型輸了，但它的分數不一定低，因為它本身實力就弱，這是預料之中。

截止目前，這個榜單可以說是非?；鸨呀浻腥?3個模型參與挑戰(zhàn)，共收到了網友們37萬張+投票。

通義千問擠進前10

除了Claude 3，我們再看看其他表現(xiàn)亮眼的選手。

首先要提的就是基于Gemini Pro的Bard，排名第四，僅次于GPT-4Turbo和Claude 3。

圖片

可以說是有點讓人驚喜。

網友戲謔：

谷歌這是生生在在排行榜上開了個“洞”啊。

并連忙艾特JeffDean和DeepMind負責人：喂，加把勁兒?。ㄍ瘢?/p>

圖片

然后要說的就是阿里通義千問（1.5版本，上個月發(fā)布）。

它在本次排名中擠進了前十、并列第九，是國內選手中表現(xiàn)最好的。

圖片

被它甩在身后的，除了其他國產選手，還有Claude 2、Gemini Pro和GPT-3.5等等。

完整榜單：https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
參考鏈接：https://twitter.com/lmsysorg/status/1765774296000172289

責任編輯：武曉燕來源：量子位

Claude 3 GPT-4 Opus

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="41jwp"><rt id="41jwp"></rt></sub>

<p id="41jwp"></p><sub id="41jwp"></sub>

<sup id="41jwp"><rt id="41jwp"><form id="41jwp"></form></rt></sup>

<sub id="41jwp"></sub>