出品 | 51CTO技術棧(微信號:blog51cto)
深夜,OpenAI最強對手Anthropic一口氣發(fā)布了三個SOTA新品,其中包括:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。業(yè)界驚呼:Claude 3帶來了一系列的新的行業(yè)基準。
其中,Opus寓意史詩級樂章,Sonnet是十四行詩,Haiku是俳句,三行短詩。
據悉(圖9),Haiku是AI市場上速度最快且最具成本效益的型號。它可以在不到三秒的時間內閱讀 arXiv上包含圖表和圖形的信息和數據密集的研究論文(約 10k tokens)。
圖8,對于絕大多數工作負載,Sonnet的速度比Claude 2和 Claude 2.1快2倍,且智能水平更高。它擅長執(zhí)行需要快速響應的任務,例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和2.1相似,但智能水平更高。
Opus 是目前Anthropic最智能的模型,在人工智能系統(tǒng)的大多數常見評估基準上都優(yōu)于同行,包括本科水平專家知識 (MMLU)、研究生水平專家推理 (GPQA)、基礎數學 (GSM8K) 等。它在復雜任務上表現出接近人類水平的理解力和流暢性,引領通用智能的前沿。
以上三個Claude 3模型都顯示出在分析和預測、細致內容創(chuàng)建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面的更強的能力。
此外,Claude 3 系列擁有近乎完美的記憶能力和超長文本窗口,將提供 200K 上下文窗口。而且能夠接受超過 100 萬個tokens的輸入,后續(xù)會按客戶需求逐步放開。
整體上看,Claude3,有三個震撼之處:
1.領域專家的基準。分別選擇了金融/醫(yī)學/哲學三個專家領域來作為測試基準,英偉達Research Manager Jim Fan稱“建議所有的LLM都遵循這一點,以便不同的下游應用程序知道會發(fā)生什么”。
2.拒絕率分析。LLM對許多“無辜問題”做出了過于謹慎的回答成為了一種流行病,Claude一直致力于安全的AI研究,并做出了該方面的努力。
3.與其他領先模型相媲美的復雜視覺功能??梢蕴幚砀鞣N視覺格式,包括照片、圖表、圖形和技術圖表,PDF、流程圖或演示幻燈片皆可。
實際測評如何?
一位網友分別讓GPT4、Claude3編寫一個登陸界面的代碼,實際運行測試效果(圖13)顯示,后者在App界面設計方面更加出色。
圖1
圖2
圖3
圖4
圖5
圖6
圖7
圖8
圖9
圖10
圖11
圖12
圖13
圖14
圖15