開源模型打敗GPT-4!LLM競技場最新戰(zhàn)報(bào),Cohere Command R+上線
GPT-4又又又被超越了!
近日,LLM競技場更新了戰(zhàn)報(bào),人們震驚地發(fā)現(xiàn):居然有一個(gè)開源模型干掉了GPT-4!
這就是Cohere在一周多前才發(fā)布的Command R+。
排行榜地址:https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
截至小編碼字的這個(gè)時(shí)間,競技場排行榜更新到了4月11號(hào),Command R+拿到了2.3萬的投票,
綜合得分超越了早期版本的GPT-4(0613),和GPT-4-0314版本并列第7位,——而它可是一個(gè)開源模型(不允許商用)。
這邊建議Altman,不管是GPT-4.5還是GPT-5,趕緊端上來吧,不然家都被偷沒了。
不過事實(shí)上OpenAI也沒閑著,在被Claude 3一家屠榜,忍受了短暫的屈辱之后,很快就放出了一個(gè)新版本(GPT-4-Turbo-2024-04-09),直接重歸王座。
這也導(dǎo)致排行榜上大家的排名瞬間都掉了一位,本來Command R+在9號(hào)的版本中是排位全球第6的。
——大哥你不講武德!
盡管如此,Command R+作為首個(gè)擊敗了GPT-4的開源模型,也算是讓開源社區(qū)揚(yáng)眉吐氣了一把,而且這可是大佬認(rèn)可的堂堂正正的對(duì)決。
Cohere的機(jī)器學(xué)習(xí)總監(jiān)Nils Reimers還表示,這還不是Command R+的真實(shí)實(shí)力,它的優(yōu)勢區(qū)間是RAG和工具使用的能力,而這些能力在LLM競技場中沒有用到。
事實(shí)上,在Cohere官方將Command R+描述為「RAG優(yōu)化模型」。
「割麥子」和最大的開源模型
毫無疑問,Cohere是當(dāng)前AI領(lǐng)域的獨(dú)角獸,而它的聯(lián)合創(chuàng)始人兼CEO,正是大名鼎鼎的「Transformer八子」之一的「割麥子」(Aidan Gomez)。
Aidan Gomez
作為Transformer最年輕的作者,一出手就是最大規(guī)模的開源模型:
- 正面對(duì)戰(zhàn)claude-3, mistral-large, gpt-4 turbo;
- 1040億參數(shù);
- 使用多步驟工具和RAG構(gòu)建;
- 支持10種語言;
- 上下文長度為128K;
- 基于上下文的引用和響應(yīng);
- 針對(duì)代碼能力進(jìn)行了優(yōu)化;
- 提供4位和8位的量化版本。
Command R+專為實(shí)際企業(yè)用例而構(gòu)建,專注于平衡高效率和高精度,使企業(yè)能夠超越概念驗(yàn)證,并通過AI進(jìn)入生產(chǎn)。
- huggingface地址:https://huggingface.co/CohereForAI/c4ai-command-r-plus
- 量化版本:https://huggingface.co/CohereForAI/c4ai-command-r-plus-4bit
——當(dāng)然了,1040億的參數(shù)量,相比于前段時(shí)間Musk開源的Grok-1(3140億)還差了一些,但Command R+并非Grok那種MoE架構(gòu),
所以這1040億參數(shù)是實(shí)打?qū)嵉耐耆糜谕评?,而Grok-1的活躍參數(shù)為860億——從這個(gè)角度來看,說Command R+是目前規(guī)模最龐大的開源模型也不為過。
作為Command R的進(jìn)化版本,進(jìn)一步全面提高了性能。主要優(yōu)勢包括:
- 高級(jí)檢索增強(qiáng)生成(RAG)與引用以減少幻覺
- 10種主要語言的多語言覆蓋,支持全球業(yè)務(wù)運(yùn)營
- 工具的運(yùn)用以自動(dòng)化復(fù)雜的業(yè)務(wù)流程
在性能優(yōu)于競品的同時(shí),Command R+還提供了相對(duì)低得多的價(jià)格。
目前,Cohere已經(jīng)與多家大廠合作,并將LLM部署到了Amazon Sagemaker和Microsoft Azure。
上面左圖展示了Azure上可用的模型,在三個(gè)關(guān)鍵功能方面的性能比較(模型在基準(zhǔn)測試中的平均得分):多語言、RAG和工具使用。
右圖比較了Azure上可用模型的每百萬個(gè)輸入和輸出token成本。
行業(yè)領(lǐng)先的RAG解決方案
企業(yè)想通過專有數(shù)據(jù)定制自己的LLM,就必然繞不開RAG。
Command R+針對(duì)高級(jí)RAG進(jìn)行了優(yōu)化,可提供高度可靠、可驗(yàn)證的解決方案。
新模型提高了響應(yīng)的準(zhǔn)確性,并提供了減輕幻覺的內(nèi)聯(lián)引用,可幫助企業(yè)使用AI進(jìn)行擴(kuò)展,以快速找到最相關(guān)的信息,
支持跨財(cái)務(wù)、人力資源、銷售、營銷和客戶支持等業(yè)務(wù)職能部門的任務(wù)。
上面左圖是在人類偏好上的評(píng)估比較結(jié)果,包括文本流暢度、引文質(zhì)量和整體效用,其中引文是在連接到源文檔塊的摘要上衡量的。
這里使用了250個(gè)高度多樣化的文檔和摘要請(qǐng)求的專有測試集,包含類似于API數(shù)據(jù)的復(fù)雜指令?;€模型經(jīng)過了廣泛的提示設(shè)計(jì),而 Command R+使用RAG-API。
右圖衡量了由各種模型提供支持的多跳REACT代理的準(zhǔn)確性,可以訪問從維基百科(HotpotQA)和互聯(lián)網(wǎng)(Bamboogle、StrategyQA) 檢索的相同搜索工具。
HotpotQA和Bamboogle的準(zhǔn)確性由提示評(píng)估者(Command R、GPT3.5和Claude3-Haiku)的三方多數(shù)投票來判斷, 以減少已知的模型內(nèi)偏差。
這里使用人工注釋對(duì)一千個(gè)示例子集進(jìn)行了驗(yàn)證。StrategyQA的準(zhǔn)確性是使用以是/否判斷結(jié)尾的長格式答案來判斷的。
使用工具自動(dòng)執(zhí)行復(fù)雜流程
作為大語言模型,除了攝取和生成文本的能力,還應(yīng)該能夠充當(dāng)核心推理引擎:能夠做出決策并使用工具來自動(dòng)化需要智能才能解決的困難任務(wù)。
為了提供這種能力,Command R+提供了工具使用功能,可通過API和LangChain訪問,以無縫地自動(dòng)化復(fù)雜的業(yè)務(wù)工作流程。
企業(yè)用例包括:自動(dòng)更新客戶關(guān)系管理(CRM)任務(wù)、活動(dòng)和記錄。
Command R+還支持多步驟工具使用,它允許模型在多個(gè)步驟中組合多個(gè)工具來完成困難的任務(wù),——甚至可以在嘗試使用工具并失敗時(shí)進(jìn)行自我糾正,以提高成功率。
上圖為使用Microsoft的ToolTalk(Hard)基準(zhǔn)測試,和伯克利的函數(shù)調(diào)用排行榜(BFCL)評(píng)估對(duì)話工具使用和單輪函數(shù)調(diào)用功能。
對(duì)于ToolTalk,預(yù)測的工具調(diào)用是根據(jù)基本事實(shí)進(jìn)行評(píng)估的,總體對(duì)話成功指標(biāo)取決于模型召回所有工具調(diào)用和避免不良操作(即具有不良副作用的工具調(diào)用)的可能性。
對(duì)于BFCL,這里使用了2024年3月的版本,在評(píng)估中包含了錯(cuò)誤修復(fù),并報(bào)告了可執(zhí)行子類別的平均函數(shù)成功率得分。通過額外的人工評(píng)估清理步驟驗(yàn)證了錯(cuò)誤修復(fù),以防止誤報(bào)。
多語言支持
Command R+在全球業(yè)務(wù)的10種關(guān)鍵語言中表現(xiàn)出色:中文、英語、法語、西班牙語、意大利語、德語、葡萄牙語、日語、韓語、阿拉伯語。
上圖為FLoRES(法語、西班牙語、意大利語、德語、葡萄牙語、日語、韓語、阿拉伯語和中文)以及WMT23(德語、日語和中文)翻譯任務(wù)的模型比較。
此外,Command R+還具有一個(gè)優(yōu)秀的分詞器,可以比市場上其他模型使用的分詞器更好地壓縮非英語文本,能夠?qū)崿F(xiàn)高達(dá)57%的成本降低。
上圖比較了Cohere、Mistral和OpenAI分詞器為不同語言生成的token數(shù)量。
Cohere分詞器生成的表示相同文本的token要少得多,尤其在非拉丁文字語言上減少的幅度特別大。比如在日語中,OpenAI分詞器輸出的token數(shù)量是Cohere分詞器的1.67倍。
價(jià)格
網(wǎng)友評(píng)價(jià)
Command R+的開源點(diǎn)燃了網(wǎng)友們的熱情,網(wǎng)友表示:「GPT-4級(jí)性能,在家運(yùn)行」。
不知道這3.15G的內(nèi)存占用是什么情況?
「感謝Cohere做了Mistral沒有做的事情」。
「根據(jù)我有限的初始測試,這是目前可用的最好的模型之一......而且它絕對(duì)有一種風(fēng)格,感覺很好。感覺不像是ChatGPT主義的填充模型?!?/span>
——是時(shí)候?yàn)樽约杭右粔K顯卡了!
上線HuggingChat
目前,Command R+已經(jīng)上線HuggingChat(https://huggingface.co/chat),最強(qiáng)開源模型,大家趕快玩起來!
問:等紅燈是在等紅燈還是等綠燈?
解釋一下咖啡因來自咖啡果:
請(qǐng)回答弱智吧問題:隕石為什么每次都能精準(zhǔn)砸到隕石坑?
我想配個(gè)6000多的電腦,大概要多少錢?
HuggingFace聯(lián)創(chuàng)Thomas Wolf曾表示,最近在LLM競技場上的情況發(fā)生了巨大變化:
Anthropic 的Claude 3家族成了閉源模型的贏家(曾經(jīng));而Cohere的Command R+是開源模型的新領(lǐng)導(dǎo)者。
2024年,在開源和閉源兩條道路上,LLM都發(fā)展迅猛。
最后,放上兩張LLM競技場的當(dāng)前戰(zhàn)況:
模型A在所有非平局A與B戰(zhàn)斗中獲勝的比例:
每種模型組合的戰(zhàn)斗計(jì)數(shù)(無平局):