整理 | 王瑞平
審校 | 言征
侵犯版權(quán)、隱私、遭遇輪番起訴,ChatGPT訪問量直線下降,市場競爭力暴跌!
就在此時,Open AI的最強(qiáng)競爭對手Anthropic趁虛而入,推出Claude 2,殺它個措手不及。一批網(wǎng)友搶先體驗過后,鋪天蓋地一片好評。
據(jù)悉,Claude系列剛被推出時就被給予厚望,由于創(chuàng)始團(tuán)隊都在Open AI任職過,技術(shù)過硬,呈現(xiàn)出的效果相當(dāng)完美,意圖理解也非常優(yōu)秀。而且還推出了Claude Chat網(wǎng)頁版,完全免費!
在性能方面,Claude 2正式支持10萬tokens的輸入,并且可以一次性輸出4000個tokens。
此外,由于使用了2023年的數(shù)據(jù)訓(xùn)練模型,Claude 2“了解時事”,輸出內(nèi)容更具時效性。這些性能的改進(jìn)都大大提升了Claude 2在用戶心目中的分量。
(來源:Anthropic)
1、性能提升:文理通吃、為安全保駕護(hù)航
相較ChatGPT,Claude 2有如下優(yōu)勢:
首先是token:GPT-4的下限默認(rèn)為8k個token,上限32k個token,而Claude 2是100k個token,與GPT-4根本不是一個量級!
然后是費用,GPT-4每月支付20美元,而Claude 2是完全免費的!
由于Claude 2具有更長的token,長文本處理能力更強(qiáng),在文科方面發(fā)揮出了優(yōu)勢。
圖片
在美國律師資格考試的多選題部分可以取得76.5%的正確率,前代Claude 1.3僅為70%。在GRE閱讀和寫作測試中,得分超過90%應(yīng)屆畢業(yè)生。而在美國醫(yī)師執(zhí)照考試中,Claude 2在3個科目中的分?jǐn)?shù)都超過了60%,獲得ALL PASS佳績。
不僅如此,Claude 2還文理通吃,在編程、數(shù)學(xué)和推理方面準(zhǔn)確率大大提升。
鑒于安全、功能及性能有所提升,Anthropic宣布Claude 2在美國及英國開放全面公測,他們也計劃未來幾個月內(nèi)再擴(kuò)大測試對象。
2、生態(tài)強(qiáng):多領(lǐng)域、跨學(xué)科合作
Jasper工程副總裁Greg Larson表示:“我們很高興能夠成為首批向客戶提供Claude 2的公司之一。它增強(qiáng)了語義、帶來最新知識培訓(xùn)、能夠?qū)?fù)雜提示進(jìn)行推理改進(jìn)?!?/p>
Sourcegraph是AI代碼平臺,可幫助客戶編寫、修復(fù)和維護(hù)代碼。編碼助手Cody使用Claude 2改進(jìn)的推理能力為客戶提供更準(zhǔn)確答案,同時,還通過token高達(dá)100K的上下文窗口傳遞更多代碼庫。此外,Claude 2的訓(xùn)練數(shù)據(jù)更新,可獲取新框架和庫的知識。
Juni Learning是在線教育解決方案的領(lǐng)先提供商,使用Anthropic為其Discord Juni Tutor Bot提供支持,幫助學(xué)生完成學(xué)業(yè)。
圖片
首席執(zhí)行官Vivian Shen表示:“對我們來說,Claude 提供的對話體驗就像真正的導(dǎo)師或老師水平,而不是表面答案?!?/p>
3、Open AI內(nèi)憂外患,挑戰(zhàn)者的好時機(jī)
近日,據(jù)外媒報道稱,OpenAI的核心員工正在流失到谷歌。其中一些員工已經(jīng)辭職并與谷歌簽訂了合同,另外一部分人也將在近期離開OpenAI。
雖然此次核心員工離職潮看起來是OpenAI爆炸式增長引發(fā)的一系列管理問題,但深究其本質(zhì)原因,或許是員工對CEO管理的不滿以及對ChatGPT技術(shù)舉步不前的失望造成的。
憑借著微軟100億美元的資金,OpenAI似乎滿足于追逐他們最大的搖錢樹 ChatGPT,但對于ChatGPT進(jìn)一步開發(fā)計劃卻遲遲沒有下文。如此看來,3月份亮相的Claude正朝初心方向發(fā)展,而ChatGPT卻中途停滯。
不僅是內(nèi)憂、外患也一并襲來。馬斯克虎視眈眈,又有大動作!其旗下又一家公司問世!當(dāng)?shù)貢r間7月12日,馬斯克在推特上宣布:人工智能公司——xAI正式成立。
圖片
xAI的官網(wǎng)已上線。據(jù)介紹,該公司由馬斯克本人親自帶隊,而其他成員則來自DeepMind、OpenAI、谷歌研究院、微軟研究院、特斯拉、多倫多大學(xué)等,曾參與過DeepMind的AlphaCode和OpenAI的GPT-3.5和GPT-4聊天機(jī)器人等項目。
從成員組成看,如此高端,馬斯克或?qū)AI定位為與OpenAI、Google和Anthropic等公司同臺競技,他們多是知名聊天機(jī)器人的推手。
xAI公司號稱宗旨是“了解宇宙的真實本質(zhì)”。7月14日,該公司團(tuán)隊將在推特空間舉行發(fā)布會,進(jìn)一步解答網(wǎng)友的問題。
4、版本評測
官網(wǎng)消息顯示,今年3月,Claude被正式推出,當(dāng)時發(fā)布了兩個版本,即,Claude1.3和Claude Instant1.1,各司其職、特性各異。
在基本的評測中,研究者也比較了三個版本。數(shù)據(jù)證明,新版本功能提升極大,主要表現(xiàn)在如下方面:
圖片
如上表所示,在Python函數(shù)合成(Codex P)、GSM8k(小學(xué)數(shù)學(xué)問題)、MMLU(多學(xué)科問答)、QuALITY(長故事問答測試)、ARC-Challenge(科學(xué)問題)、TriviaQA(閱讀理解)和RACE-H(高中閱讀理解和推理)上,Claude 2的大部分得分都更高了。
官網(wǎng)上也透露說:“Claude具有高性能,而Claude Instant更便宜、更快?!?/p>
5、雞兔同籠,輸給了文心一言
為實測Claude 2的能力,我們嘗試用“雞兔同籠”問題測試文心一言和Claude 2,并進(jìn)行了對比。
圖片
如圖所示,Claude 2的中英文都輸出了錯誤的答案...
圖片
而用文心一言進(jìn)行測試,竟然算對了,看來還是文心一言靠譜!
圖片
圖片
有趣的是,ChatGPT中文版算對而英文版算錯了!實測有點打臉!看來,Claude 2數(shù)學(xué)能力提升任重而道遠(yuǎn)。
6、用戶:Claude比ChatGPT更健談
再來看看用戶反饋如何,Claude生成的對話文字似乎比ChatGPT更靈活!
圖片
主要合作伙伴之一Quora通過AI聊天工具Poe也向用戶展示了Claude?!坝脩羝毡檎J(rèn)為Claude的回答詳細(xì)且易于理解,交流時感覺像普通交流對話,”Quora的人員和通信主管Autumn Besselman說。
用戶應(yīng)明確,Claude與所有當(dāng)前模型一樣,會輸出不合理內(nèi)容。但是,這并不妨礙你與Claude 交談。用開放、包容的心去使用吧,體驗地址在這里:https://claude.ai/chats,祝你玩得愉快!
參考資料:
1.https://www.anthropic.com/index/claude-2
2.https://www.ithome.com/0/705/362.htm