DeepSeek V3獲競技場最強開源認證!與Claude 3.5 Sonnet對比實測來了
國產(chǎn)之光DeepSeek V3競技場排名新鮮出爐——
優(yōu)于o1-mini(總榜第7),獲最強開源模型認證(也是唯一闖入前10的開源模型)。
單項上,在困難提示、編程、數(shù)學,寫作等方面全面超越Claude 3.5 Sonnet。
不過,如果設置了風格控制,Claude 3.5 Sonnet在理解困難提示方面還是要略勝一籌。
(風格控制:剔除模型通過長篇且格式良好的回復來迎合人類偏好)
由此也引發(fā)兩邊支持者激烈的爭論:
DeepSeek V3在實際編碼中真的比Claude 3.5 Sonnet強嗎?
帶著同款好奇,量子位&網(wǎng)友實測這就奉上。
實測DeepSeek V3和Sonnet 3.5
經(jīng)典腦筋急轉彎
第一關先來個開胃小菜,一道經(jīng)典腦筋急轉彎考查模型理解能力。
小明的媽媽有三個孩子,老大叫一明,老二叫二明,老三叫什么?
DeepSeek V3回答正確。它先明確了題目要求,然后邏輯滿分找出了正確答案(甚至還有自我驗證)。
相比之下,Claude 3.5 Sonnet既正確又簡潔。
當然,考慮到腦筋急轉彎這種東西也受東西文化差異影響,我們再來一道。
why are people tired on April Fool’s Day? (為什么人們在愚人節(jié)很累?)
答案一般是“Because they have just had a long March”。因為他們剛度過了一個很長的三月(行軍),March除了三月還有行軍的意思,這里考察對雙關的理解。
好嘛,DeepSeek V3果然歇菜了。從部分回答來看,它完全誤解了題目意圖,一本正經(jīng)地回答是因為人們感到焦慮、熬夜之類。
而Claude 3.5 Sonnet穩(wěn)穩(wěn)守住了主場,也是輕輕松松get了雙關。
顯而易見,Claude 3.5 Sonnet在第一關小試牛刀中全勝,而DeepSeek V3可能更偏向中文語境。
弱智吧邏輯陷阱+反轉詛咒
接下來難度升級,利用弱智吧經(jīng)典陷阱來考查模型邏輯能力。
臺上一分鐘,臺下十年功,為何不在臺上練功?
很好,DeepSeek V3又掉線了,精準踩進人類陷阱。(正能量滿滿可還行)
不過別擔心,你的難兄難弟Claude 3.5 Sonnet來陪你了(doge)。
看來面對充滿心機的弱智吧問題,二位選手都不在狀態(tài)。
Okk,不繼續(xù)在這上面為難二位了,下面來一道正兒八經(jīng)的“反轉詛咒”(即知道A是B卻不知道B是A)問題。
而兩位選手都一次性答對了Mary Lee Pfeiffer(湯姆·克魯斯的母親)的兒子是誰。
考研數(shù)學真題
下面進入數(shù)學能力測試。比如這道考研數(shù)學真題,涉及的知識點是曲面積分、高斯定理等內容:
直接上傳截圖,DeepSeek V3還是詳細按步驟解答,而且也做對了。
而Claude 3.5 Sonnet雖然看起來方法更簡單,但最終答案錯誤,功虧一簣。
編碼能力
重頭戲來了,最后來考查一下模型編碼能力。
剛好有位??網(wǎng)友拿DeepSeek V3和Claude Sonnet 3.5進行了測試,在Scroll Hub中分別用它倆創(chuàng)建網(wǎng)站。
博主在測試之后,認為DeepSeek V3完全勝出。
小結一下,從有限測試來看,DeepSeek V3貌似確實能和Claude Sonnet 3.5打得有來有回。
滿血版o1空降第一
BTW,隨著DeepSeek V3競技場排名一起變動的,還有OpenAI的o1模型。
估計是“雙十二”期間正式上線的滿血版o1,此次超越o1-preview 24分,空降總榜第一。
而且除了創(chuàng)意寫作,各個單項都是第一。
所以,對于這幾家,大家在使用過程中感受如何呢??
競技場試玩:https://lmarena.ai/。
參考鏈接:https://x.com/lmarena_ai/status/1873695386323566638。