「全球最嚴(yán)榜單」,階躍拿下中國(guó)TOP 1!殺入世界前五,超過GPT-4o緊跟o1-mini
不低調(diào)了!
剛剛,國(guó)際權(quán)威榜單LiveBench最新榜單出爐,一個(gè)國(guó)產(chǎn)黑馬閃耀其中。
沒錯(cuò),它就是階躍星辰自研的萬億參數(shù)大模型Step-2。
Step-2以碾壓之勢(shì),強(qiáng)勢(shì)殺入LiveBench全球前五,一舉奪得國(guó)內(nèi)TOP 1。
更讓人熱血沸騰的是,這款Step-2語言大模型,成為唯一一個(gè)沖進(jìn)榜單前十的中國(guó)語言大模型。
根據(jù)榜單評(píng)測(cè),Step-2成績(jī)逼近OpenAI o1-mini(2024-09-12),超越GPT-4o(2024-08-06)、Gemini 1.5 Pro 002等國(guó)際主流模型。
Step-2的真實(shí)表現(xiàn),徹底震驚了歪果仁。在Reddit和X上,可謂是熱議連連。
太令人印象深刻了!或許OpenAI、Anthropic、DeepMind發(fā)布萬億參數(shù)模型時(shí),我們也能看到這一結(jié)果。
中國(guó)的LLM正在變得強(qiáng)大,一個(gè)全新模型登上LiveBench榜單第五名,而且在多個(gè)基準(zhǔn)測(cè)試中超越了GPT-4o,甚至在其中一個(gè)基準(zhǔn)上擊敗了o1-preview
如今,Step-2以王者姿態(tài),實(shí)至名歸。
趕超o1-preview,全憑驚人理解力
根據(jù)榜單,在IF Average(指令跟隨)一項(xiàng)中,Step-2的表現(xiàn)超越了所有上榜的國(guó)內(nèi)外模型。
甚至,連OpenAI o1-preview(2024-09-12)也被碾壓式擊敗,領(lǐng)先近10分。
這意味著,Step-2在語言生成上對(duì)細(xì)節(jié)有最強(qiáng)的控制力,模型能夠更好地理解和遵循人類指令。
比如,即便給出模糊的指令,憑借出色的理解能力,Step-2基于上下文推斷用戶的需求,精準(zhǔn)捕捉其真實(shí)意圖,提供更準(zhǔn)確、個(gè)性化的響應(yīng)。
Step-2的與眾不同在于,在知識(shí)覆蓋面和深度上,取得了實(shí)打?qū)嵉耐黄啤?/span>
不僅能處理常見的領(lǐng)域知識(shí),還能更深層次理解、回答特定領(lǐng)域復(fù)雜問題。
在文字創(chuàng)作方面,Step-2更展現(xiàn)出了令人驚嘆的控制力。
它就像一位豐富的文字匠人,比如在創(chuàng)作古詩(shī)詞時(shí),對(duì)字?jǐn)?shù)、格律、押韻、意境都可以做到精準(zhǔn)把握。
Step-2既能生成高質(zhì)量、有創(chuàng)意的文字內(nèi)容,又具備了出色的細(xì)節(jié)控制力,根據(jù)用戶指令對(duì)文本進(jìn)行精準(zhǔn)調(diào)整和優(yōu)化。
大模型最權(quán)威評(píng)測(cè),LeCun領(lǐng)銜
值得一提的是,LiveBench是由圖靈獎(jiǎng)得主Yann LeCun聯(lián)手Abacus.AI、NYU、英偉達(dá)等多家機(jī)構(gòu)推出的LLM評(píng)測(cè)基準(zhǔn)。
其含金量,不言而喻。
而且,它被行業(yè)譽(yù)為「世界上第一個(gè)不可玩弄的LLM基準(zhǔn)測(cè)試」。
當(dāng)前,測(cè)試集污染,已經(jīng)成為公平評(píng)估大模型面臨的一個(gè)普遍問題。
就好比LLM在訓(xùn)練時(shí)偷看了測(cè)試數(shù)據(jù),使得原有評(píng)測(cè)失去了意義。
雖然業(yè)界嘗試通過人工/LLM打分來收集新提示詞和評(píng)估結(jié)果,但這種方法會(huì)引入新的偏差,特別是在評(píng)估復(fù)雜問題時(shí)表現(xiàn)不佳。
LiveBench就是為了破解這一難題而誕生。
這一創(chuàng)新基準(zhǔn)從數(shù)學(xué)、推理、編程、語言理解、指令遵循和數(shù)據(jù)分析在內(nèi)的多個(gè)復(fù)雜維度對(duì)模型進(jìn)行評(píng)估。
而且,它還會(huì)每月定期更新,基于最新信息源的測(cè)試問題。
每個(gè)測(cè)試問題都配備了可驗(yàn)證的、客觀的參考答案,這使得即使是較為復(fù)雜的問題也能夠準(zhǔn)確且自動(dòng)地完成評(píng)分,無需依賴LLM作為評(píng)判標(biāo)準(zhǔn)。
項(xiàng)目地址:https://livebench.ai/#
為了確保測(cè)試的「新鮮度」,它采用了多種創(chuàng)新方法,保證測(cè)試內(nèi)容未受數(shù)據(jù)污染。
比如,精心設(shè)計(jì)基于最新數(shù)學(xué)競(jìng)賽、arXiv論文、新聞文章和數(shù)據(jù)集的問題,同時(shí)收錄了來自現(xiàn)有評(píng)測(cè)基準(zhǔn)(如Big-Bench Hard、AMPS和IFEval)的改進(jìn)版任務(wù)。
發(fā)布之初,研究團(tuán)隊(duì)基于LiveBench對(duì)知名閉源模型進(jìn)行評(píng)測(cè),以及對(duì)參數(shù)規(guī)模從5億到1100億參數(shù)不等的數(shù)十個(gè)開源模型進(jìn)行了評(píng)估。
測(cè)試結(jié)果卻令人深思:即使是最強(qiáng)大的模型,準(zhǔn)確率也未能突破65%的天花板。
足見,LiveBench在大模型評(píng)測(cè)中的權(quán)威性和挑戰(zhàn)性。
這也從側(cè)面說明了,能夠躋身TOP 5的模型,必定是真材實(shí)料、技術(shù)過硬的佼佼者。
那么,究竟是怎樣的技術(shù)實(shí)力,讓Step-2能夠在如此嚴(yán)苛的考驗(yàn)下脫穎而出?
讓我們一起來揭開這個(gè)謎底...
萬億參數(shù)Step-2,是怎樣煉成的
今年3月,還是LLM戰(zhàn)場(chǎng)新玩家的階躍星辰,就一口氣發(fā)布了千億參數(shù)語言大模型Step-1、千億參數(shù)多模態(tài)大模型Step-1V,以及來自國(guó)內(nèi)大模型初創(chuàng)的首個(gè)萬億參數(shù)MoE語言大模型Step-2預(yù)覽版。
今年7月,Step-2正式亮相后,更是直接躋身國(guó)際頂尖模型的行列。
在數(shù)理邏輯、編程、中文知識(shí)、英文知識(shí)、指令跟隨等方面,Step-2的能力和使用體驗(yàn)已經(jīng)全方位逼近GPT-4。
目前,階躍星辰已將Step-2接入了C端智能助手「躍問」,在躍問App和躍問網(wǎng)頁(yè)端皆可體驗(yàn)。
體驗(yàn)地址:https://yuewen.cn
從千億模型擴(kuò)展到萬億參數(shù),并不是簡(jiǎn)單的「大力出奇跡」,而是需要跨過技術(shù)上的「分水嶺」,對(duì)各個(gè)維度的要求都是水漲船高。
一旦其中任何維度出現(xiàn)短板,Scaling Law都將不再適用,出現(xiàn)「只投入,不產(chǎn)出」的尷尬局面。
為了訓(xùn)出強(qiáng)悍的Step-2,技術(shù)團(tuán)隊(duì)在算法和系統(tǒng)方面都做出了大量的關(guān)鍵創(chuàng)新。
階躍星辰創(chuàng)始人、CEO姜大昕博士表示,模型擴(kuò)大到萬億級(jí)別時(shí),MoE幾乎是必選項(xiàng),這是權(quán)衡了性能、參數(shù)量、訓(xùn)練成本、推理成本等各個(gè)維度后的最佳選擇。
要訓(xùn)練如此大規(guī)模的MoE模型,有兩條路可走:一是將已有模型進(jìn)行向上復(fù)用(up-cycle)。
這個(gè)方案最大的好處,就在于省錢省力,算力需求低、訓(xùn)練效率高,但會(huì)限制模型能力的上限,容易造成比較嚴(yán)重的專家同質(zhì)化。
為了達(dá)到最優(yōu)性能,階躍星辰團(tuán)隊(duì)選擇迎難而上,沒有采用第一種方案,而是完全自主研發(fā),從頭開始。
Step-2的架構(gòu)中采用了部分專家共享參數(shù)、異構(gòu)化專家等一系列新穎的設(shè)計(jì),充分利用萬億參數(shù)。
雖然在MoE架構(gòu)中,每次訓(xùn)練或推理只會(huì)激活部分參數(shù),但背靠萬億總量,激活的參數(shù)量也能超越大部分稠密模型。
當(dāng)參數(shù)增長(zhǎng)到萬億級(jí)別時(shí),訓(xùn)練效率至關(guān)重要,這離不開高效且穩(wěn)定的系統(tǒng)部署。
高效,意味著GPU的使用效率高,讓有限的硬件輸出最多的算力;穩(wěn)定,意味著訓(xùn)練過程需要持續(xù)進(jìn)行,不能輕易被故障打斷。
即使每張GPU日夜不停連續(xù)跑兩個(gè)月才出現(xiàn)一次故障,放在萬卡集群中,相當(dāng)于平均每10分鐘就有一張卡出問題。
如果沒有自動(dòng)的故障檢測(cè)和恢復(fù)機(jī)制,每張卡出問題時(shí)都要恢復(fù)檢查點(diǎn)、重啟訓(xùn)練,不僅工程師不用睡覺了,模型的訓(xùn)練周期更是成倍拉長(zhǎng)。
在Step-2訓(xùn)練過程中,階躍星辰的系統(tǒng)團(tuán)隊(duì)突破了6D并行、極致顯存管理、完全自動(dòng)化運(yùn)維等關(guān)鍵技術(shù),從高效、穩(wěn)定兩個(gè)層面同時(shí)發(fā)力,才能在3個(gè)月的時(shí)間內(nèi)發(fā)布新模型。
如今,哪條是通往AGI的坦途,業(yè)內(nèi)大佬們依舊爭(zhēng)論不一。
從Step-2霸榜驚艷表現(xiàn),到多模型齊頭并進(jìn),階躍星辰展現(xiàn)出一家頂尖AI公司應(yīng)有的實(shí)力和遠(yuǎn)見。
這不僅僅是一個(gè)技術(shù)突破的見證,更是一個(gè)關(guān)于中國(guó)AI力的最好注腳。