12項性能位居第一,中國最接近GPT-4的大模型來了!現(xiàn)已全面開放服務!
中國何時會有一個大模型,能以極強的泛化能力,創(chuàng)建各種智能體、成為人類真正的助手?
在各大科技公司卷了半年的生成式AI熱潮趨于冷靜期的當下,這是一個極其值得思考的問題。
很多人會說,目前可能只有被稱為業(yè)界標桿的GPT-4才能勝任,甚至對它加以“唯一”這樣的頭銜。
而與此同時,著眼于國內(nèi),即使這半年來各個大模型玩家爭先恐后搶著落地,但“需要兩到三年才能追趕GPT-4”的聲音也是甚上塵囂。
然而就在最近,一個名為InternLM-123B的國產(chǎn)預訓練大語言模型,似乎將這種差距感極大地給拉近了一些。
因為在一場頂尖大模型“同臺競技”中,它的表現(xiàn)實屬有些亮眼:
? 12項成績排名第一。
? 綜合實力全球第二,部分成績超越GPT-4。
? 絕大部分性能超越ChatGPT和LLaMa-2-70B。
圖片
據(jù)了解,這個評測是在全球51個知名評測集(包括MMLU、AGIEval、ARC、CEval、Race、GSM8K等)、共計30萬道問題集合上測試所得到的結(jié)果。
而細看評測內(nèi)容,不難發(fā)現(xiàn)在所有的閱讀理解、絕大部分推理和常識問答方面,InternLM-123B拿到了絕對的風頭。
圖片
那么這個國產(chǎn)大模型到底是什么來頭?
不賣關(guān)子,它正是由商湯聯(lián)合上海AI實驗室等多家國內(nèi)頂尖科研機構(gòu)發(fā)布的最新大語言模型。
但其實要是追溯一下這個大模型,不難發(fā)現(xiàn)在2個月前(6月份),當時參數(shù)量為1040億的InternLM便已經(jīng)解鎖了“首個綜合能力超越GPT-3.5-turbo的基模型”的成就,成為當時國內(nèi)首家在多項權(quán)威評測集上超越ChatGPT水平的基模型。
不僅如此,在近日商湯所披露的中期業(yè)績報告中,更是將如此生成式AI技術(shù),落地所帶來的“成績”曝了出來:
僅半年時間,生成式AI相關(guān)收入暴漲670.4%!
圖片
如此技術(shù),如此成績,那么不免讓人發(fā)出疑問:
會是中國第一個達到GPT4水平的大模型嗎?
若想趕超GPT-4,單是在技術(shù)上達到或超越它就并非是一件易事。
畢竟即使是人才、資金、算力都兼?zhèn)涞墓雀韬蚆eta至今都未能達到它的水平。
而且超強的算力、高質(zhì)量的數(shù)據(jù)、正確的訓練方法等等,都是一環(huán)扣一環(huán),直接會影響大模型性能的好壞。
有人會說,為什么非要做到GPT-4水平呢?用Llama 2開源模型不香嗎?
那是因為,如果要讓GPT-4驅(qū)動類似于AutoGPT那樣的智能體,打造“工具調(diào)用”的可用境界,就必須要依賴強大的基座模型。
在“工具調(diào)用”這件事情上,強如GPT-4也只能做到80%的準確率,Llama的準確率只有40%。
圖片
數(shù)據(jù)來源:《On the Tool Manipulation Capability of Open-source Large Language Models》△△
再如落地方式上,經(jīng)久不斷的開源閉源之爭,亦是抉擇的一個難點。
因此,我們不妨從技術(shù)實力、落地應用和戰(zhàn)略布局等方面,來看下商湯是否是一個值得被期待的“潛力股”。
一看技術(shù)實力
若是用一句話來概括商湯在技術(shù)上的打法,那便是“日日新大模型體系+SenseCore大裝置”。
二者并非是簡單的做加法那般疊加,而是之間有著深度融合的那種。
至于其技術(shù)實力效果,我們從大模型的迭代速度便可窺知一二。
早在今年四月,商湯便發(fā)布日日新大模型體系,成為國內(nèi)第一批發(fā)布大模型的玩家之一;在國內(nèi)大語言模型之戰(zhàn)最白熱化階段,一口氣將“生成式AI產(chǎn)品族”和盤托出——
商量(SenseChat)、秒畫(SenseMirage)、如影(SenseAvatar)、瓊宇(SenseSpace)和格物(SenseThings)。
它們分別對應的是自然語言交互、AI文生圖、數(shù)字人、3D大場景重建、3D小物體生成這五個主流的生成式AI應用。
圖片
時隔僅僅兩個月(今年6月),商湯再次聯(lián)合上海人工智能實驗室發(fā)布InternLM-104B版本,并且當時在三個全球權(quán)威測評基準中(MMLU、AGIEval、C-Eval)的表現(xiàn)就均已超越ChatGPT。
不僅如此,在大模型的“玩法”上,商湯也是國內(nèi)眾多玩家里最早引入“工具調(diào)用”的選手之一。
例如知識庫掛載,實現(xiàn)了無需訓練,便可快速融合知識生成;搭配企業(yè)知識庫可以快速解決相關(guān)領(lǐng)域問題。
再如InternLM-Chat-7B版本,也是在這種“玩法”之下,成為了第一個具有代碼解釋能力的開源對話模型。
能夠根據(jù)需要靈活調(diào)用Python解釋器等外部工具,在解決復雜數(shù)學計算等任務上的能力顯著提升;此外,該模型還可通過搜索引擎獲取實時信息,提供具有時效性的回答。
圖片
并且從第三方對于大模型掌握工具能力的評估結(jié)果來看,InternLM-Chat-7B也是領(lǐng)先于主流“選手”。
圖片
在此之后,商湯大語言模型的發(fā)展,也就來到了我們最開始所提到的InternLM-123B,是僅次于GPT-4,綜合實力位居全球第二的水平。
所以現(xiàn)在把發(fā)展路徑中的幾個重要迭代時間節(jié)點拎出來就是:四月→六月→七月→八月。
不得不說,快,著實是快。
在與商湯聯(lián)合創(chuàng)始人兼大裝置首席科學家林達華交流過程中,我們了解到如此迭代速度的背后還有一個“殺手锏”——數(shù)據(jù)處理。
這里所指的并非只是數(shù)據(jù)的總量,商湯更側(cè)重的是足夠強、高吞吐量的數(shù)據(jù)清洗能力。正如林達華所述:
一個性能強大的大模型,訓練數(shù)據(jù)不僅規(guī)模要大,質(zhì)量更要高;而且大模型的價值觀和安全性也是依賴于此。
數(shù)據(jù)清洗的過程,猶如調(diào)制配方的實驗,需要不斷試錯、不斷重復,甚至從頭再來。這個過程是每家訓練大模型的公司都無法避免的過程,沒有捷徑可走。
OpenAI在無數(shù)場合都介紹過GPT4訓練的經(jīng)驗,但從未公開過數(shù)據(jù)清洗的經(jīng)驗,這可謂是訓練大模型的頂級機密。
商湯在數(shù)據(jù)清洗的過程中投入了上千塊GPU的算力,并建立起大量系統(tǒng)化、工程化的途徑來進行數(shù)據(jù)配方的試錯,可以迅速發(fā)現(xiàn)大數(shù)據(jù)庫中的有效數(shù)據(jù)再到小參數(shù)模型上進行驗證。
從4月到8月,商湯花費了非常大的力氣做數(shù)據(jù)清洗,過程中專注于補充和構(gòu)建有多步驟的推理語料,形成一套非常高效的閉環(huán)進行模型的訓練,使得模型的推理能力得到了大幅提升。
目前商湯每月能夠產(chǎn)出約2萬億token的高質(zhì)量數(shù)據(jù),預計年底高質(zhì)量數(shù)據(jù)儲備將突破10萬億token,足以支持更加強大的基模型的訓練。
通過數(shù)據(jù)清洗,商湯在中文語料的儲備方面達到了一個相當高的水平,是業(yè)內(nèi)領(lǐng)先的能力,因此在知識理解和推理方面都有非常優(yōu)異的表現(xiàn)。
而如此迅猛的迭代速度和高質(zhì)量數(shù)據(jù)清洗,定然是離不開大算力的加持,也就是商湯技術(shù)版圖中另一個關(guān)鍵——SenseCore大裝置。
早在2022年1月,商湯便交付使用了總投資高達56億元的人工智能計算中心(AIDC),而且是“出道”即成為亞洲最大的AI超算中心之一。
一年前它的算力就已經(jīng)高達了2500 Petaflops,可以輕松應對萬億參數(shù)的大模型;而時隔僅1年,這個數(shù)值便翻了一倍多,達到了6000 Petaflops。
有強大的算力,有高質(zhì)量數(shù)據(jù),加之商湯對于“玩轉(zhuǎn)”大模型多年來沉淀的know-how,也就不難理解為何能擁有如此迅猛的迭代速度了。
二看落地應用
高質(zhì)量的落地速度,是另一個關(guān)鍵點。
這也是目前趨于冷靜的AIGC市場之下,各個大模型玩家所面對的骨感且實實在在的問題。
商湯可以說在這一點上提交了一份生成式AI相關(guān)收入暴漲670.4%的高分作業(yè)。
這個數(shù)據(jù)的亮相其實也并不意外,因為商湯在此前的活動中也早已對此有所披露。
例如結(jié)合商量2.0和秒畫3.0的能力,商湯在移動端給客戶帶來了多種交互方面的“解法”。
針對信息獲取的問答交互、生活場景的知識交互、語言和圖像生成的內(nèi)容交互等等,正因為商湯的大模型擁有輕量化版本,所以可以輕松在移動端上部署。
商湯還基于InternLM的輕量級模型,結(jié)合自研推理加速算法,與頭部手機芯片廠商建立研發(fā)合作,成功實現(xiàn)了大語言模型的手機端實時計算能力。
……
而這僅是商湯將大模型落地應用的一隅,從眾多案例來看,也正應了商湯聯(lián)合創(chuàng)始人、執(zhí)行董事徐冰的觀察:
市場對于AIGC、大模型技術(shù)的需求是非常強烈的;誰能夠在市場上迅速地推出對標業(yè)界領(lǐng)先能力的基模型,誰就能跑得更快一些。
我們在基礎設施中投入如此大的力量,也是要解決市場對于大模型落地固有的碎片化的問題;讓基模型的泛化能力強大起來,即便面對各種碎片化的需求都可以做到及時響應。
因此,商湯的落地速度,從某種層面上也可以視為“強技術(shù)”與“強需求”之間的雙向奔赴了。
三看戰(zhàn)略布局
自從大模型熱潮以來,一個經(jīng)久不斷的話題便是“開源”和“閉源”。
其各自的優(yōu)勢也是越發(fā)的明顯:
? 開源大模型:可以促進技術(shù)的共享和交流,加速人工智能的發(fā)展;避免閉源模式下的技術(shù)獨霸和壟斷,促進市場的公平競爭。
? 閉源大模型:可以保護知識產(chǎn)權(quán),為公司帶來經(jīng)濟效益;提高公司的核心競爭力,為公司在市場中占據(jù)優(yōu)勢地位。
但二者之爭也是進展地如火如荼,國外大模型巨頭亦是如此,最為典型的便是Meta正在以開源LLaMa系列來挑戰(zhàn) OpenAI的地位。
在這個關(guān)鍵問題上,商湯的戰(zhàn)略布局與它們截然相反——不做選擇題,都要。
例如在開源方面,商湯與多家科研機構(gòu)合作支持和推進AI開源平臺建設,InternLM-7B的部分訓練數(shù)據(jù)、訓練代碼及基模型權(quán)重已經(jīng)向?qū)W術(shù)界及工業(yè)界免費開源,并支持免費商用。
而在閉源方面,商湯目標打造具有競爭力且好用的“基座模型”,如同英偉達賣“硬的鏟子”,商湯希望通過“軟的鏟子”,支持上萬個潛在行業(yè)大模型的需求,真正解決行業(yè)痛點。
正如林達華表示:
二者是相輔相成、互補的,它們對產(chǎn)業(yè)來說都有著非常重要的價值。
開源能夠讓更多人接觸到大模型這個技術(shù)本身。在這個過程中,它可以碰撞出更多火花,讓大模型更好的應用起來,推動整個大模型生態(tài)的建設。我想對全行業(yè)來說,開源是一個非常正面的貢獻。
而閉源對于企業(yè)在市場中形成技術(shù)和競爭力的壁壘起到至關(guān)重要的作用;未來若是能夠?qū)⒍咦龊芎玫慕Y(jié)合,會更好地推動大模型市場的發(fā)展。
與此同時,商湯還非??粗鼗P偷哪芰Γ驗樵谒磥?,只有把基模型做得足夠強,才能應對碎片化極高的市場需求。
這也應了徐冰的想法:
大語言模型也好,文生圖模型、多模態(tài)模型等等也罷,它們的發(fā)展今年都遵循了同樣的規(guī)律,就是先前碎片化,定制多;但現(xiàn)在轉(zhuǎn)為追求強大的基模型能力,追求強大的泛化能力,能夠直接接入到客戶場景里面,做好適配能夠很好地去迅速地形成商業(yè)上的價值變現(xiàn)閉環(huán)。
我們也粗略地估計了一下,全中國的行業(yè)大模型可能潛在的規(guī)模突破一萬個,因為這里面的場景非常多,玩家也非常多。這些行業(yè)的大模型是需要基于一個強大的基模型能力去生產(chǎn)的,它很難憑空只針對某個領(lǐng)域的數(shù)據(jù)就把行業(yè)大模型做好,因為它缺少了基模型所能帶來的一系列的涌現(xiàn)能力。
……
總而言之,有實力、有落地、有布局,商湯能否解鎖“成為中國第一個達到GPT-4水平的大模型”,是值得期待一波了。
商湯刷新了自己
最后,我們再回到商湯本身。
若是要用一句話來評價商湯這次交出的“成績單”,或許就是:
商湯自己刷新了自己。
曾幾何時,大眾和市場對于商湯的印象可能依舊是停留在“AI視覺技術(shù)公司”這個標簽上。
但也正是這樣的一個起點,如果站在當下這個時間節(jié)點回首,或許正應了現(xiàn)在非常流行那句話:命運的齒輪開始轉(zhuǎn)動了。
現(xiàn)在大模型所需要的多模態(tài)技術(shù),不論是自然語言處理,還是圖像處理等,商湯已經(jīng)早早涉足且深耕;現(xiàn)在大算力上的“一票難求”,商湯也是早早布局打造AIDC,為日后的大裝置做好了充足的鋪墊。
而且商湯更是在ChatGPT引爆AIGC大熱潮之前,便已經(jīng)在大模型領(lǐng)域著手研發(fā)。
并且在2019年,商湯便使用上千張GPU進行單任務訓練,推出了10億參數(shù)規(guī)模的視覺模型,并實現(xiàn)了當時業(yè)界最好的算法效果。
后來在2021年到2022年期間,商湯訓練并開源了30億參數(shù)的多模態(tài)大模型書生。
而當熱潮退去,市場迎來落地大考之際,商湯又能將長期準備好的一系列的成果通過完備生產(chǎn)要素和生產(chǎn)資料、靈活的“玩法”和布局來應對。
因此,現(xiàn)在的商湯更像是一個新型技術(shù)基建平臺,時刻在為即將到來且充滿變數(shù)的未來在做著準備。
總而言之,商湯,是時候需要被重估了。
One More Thing
好消息!商湯大模型應用“商量SenseChat”即日起全面向廣大用戶開放服務了!
可戳下方鏈接了解一下:https://chat.sensetime.com