自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

十人倆月搞出大模型!一年16篇頂會(huì)論文加持:市面上做得好的都沒有開源

人工智能 新聞
對于未來的發(fā)展路線,共生矩陣選擇短期內(nèi)先閉源,未來在合適的機(jī)遇下可能適當(dāng)開源。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

一家今年5月份成立在深圳的公司,團(tuán)隊(duì)至今不到10人。

他們要做的卻不是小事:挑戰(zhàn)AGI。

底氣在哪?一看過往履歷,二看現(xiàn)在賽道的成績。

這幾個(gè)人近一年中,累計(jì)在CVPR、ICML、ECCV等頂會(huì)上發(fā)表16篇大模型相關(guān)論文,其中一篇還拿下了頂會(huì)ACL 2023的最佳論文提名。

創(chuàng)業(yè)后的成績?nèi)绾??成立兩個(gè)月后,所訓(xùn)模型殺入C-Eval榜單前三,中文能力擊敗ChatGPT和Claude-v1.3。

這就是共生矩陣拿出的成績。

并且旗下模型GS-LLM七月末首次上榜至今,在C-Eval榜單65個(gè)上榜選手中,一直處于第一梯隊(duì)。

那么,共生矩陣是誰?

10個(gè)人挑戰(zhàn)AGI

共生矩陣,目標(biāo)立足自研AGI技術(shù),打造行業(yè)數(shù)據(jù)精煉工廠。

團(tuán)隊(duì)所依托的主要是自研大模型GS-LLM。

模型參數(shù)規(guī)模從7B-130B不等,能根據(jù)用戶的實(shí)際需求量體裁衣。

在C-Eval上占據(jù)一席之地的有基于GS-LLM的兩個(gè)版本,一個(gè)是百億參數(shù)版本的GS-LLM-Beta,另一個(gè)是不足百億規(guī)模的mini版本GS-LLM-Beta-Mini。

推出mini版本的原因是發(fā)現(xiàn)不少使用者,原有的運(yùn)作環(huán)境(甚至云端環(huán)境)不足以支撐大體量的本地部署。

測試結(jié)果發(fā)現(xiàn),幾十億版本的GS-LLM-Beta就可以發(fā)揮不錯(cuò)的性能,在C-Eval上最好排名達(dá)到第6。

能夠常駐C-Eval榜單前列的原因之一,是共生矩陣搭建了一套完全獨(dú)立的訓(xùn)練框架,對整個(gè)訓(xùn)練構(gòu)成比較完備的技術(shù)支撐。

第二個(gè)點(diǎn)在數(shù)據(jù),這是這家公司格外重視的一點(diǎn)。

共生矩陣CEO張林舉了個(gè)簡單的例子:

把模型訓(xùn)練比作人的成長過程。如果他從小看的都是沒有營養(yǎng)的小說,這個(gè)人的總體能力不會(huì)太強(qiáng)。

去年團(tuán)隊(duì)在一個(gè)實(shí)驗(yàn)中發(fā)現(xiàn),當(dāng)模型數(shù)據(jù)達(dá)到某一數(shù)量級時(shí),數(shù)據(jù)質(zhì)量的躍升反而能引起一些質(zhì)變。

“也就是說,有一個(gè)相對小體量(如百億級別)的模型,喂給它高質(zhì)量的數(shù)據(jù),訓(xùn)練出來的結(jié)果和千億級別的結(jié)果是很接近的。”張林說。

這個(gè)實(shí)驗(yàn)也讓團(tuán)隊(duì)對數(shù)據(jù)質(zhì)量、體系化獲取高質(zhì)量數(shù)據(jù)途徑的重視再+1。

其實(shí)這點(diǎn)近期越來越引起各界注意,微軟就有一項(xiàng)新研究《Textbook are all you need》,工作表示,做大不是唯一的出路,高質(zhì)量的數(shù)據(jù)才是至關(guān)重要的。

于是乎,共生團(tuán)隊(duì)構(gòu)建了一套清洗數(shù)據(jù)的工程化體系,24小時(shí)持續(xù)清洗數(shù)據(jù)。

團(tuán)隊(duì)目前清洗出的可以用于訓(xùn)練的文本數(shù)據(jù),大約有20T,“這個(gè)量級能夠支撐非常大體系的模型訓(xùn)練”。

不過張林也透露,短期內(nèi)共生矩陣不會(huì)對外公開團(tuán)隊(duì)清洗出的數(shù)據(jù)。

那么,團(tuán)隊(duì)想打造的數(shù)據(jù)精煉工廠又是什么概念?

張林解釋,如果把大模型理解為“信息的壓縮”,那么它本身就是一個(gè)體量很大的參數(shù)數(shù)據(jù)庫。

數(shù)據(jù)精煉工廠要做的事,就是將模型訓(xùn)練好后的參數(shù)數(shù)據(jù)進(jìn)行共享和交易。

要知道,大模型的功能是通過參數(shù)來承載的,交易參數(shù)其實(shí)就是切換功能,我們需要大模型功能的多樣性,“參數(shù)交易是最高效的路徑”。

這里指的數(shù)據(jù)不是大家看得到的那種數(shù)據(jù),而是參數(shù)數(shù)據(jù)。我們常說的數(shù)據(jù)是一段文本、一張圖片,而工廠擁有的數(shù)據(jù)是模型訓(xùn)練好的參數(shù),對參數(shù)進(jìn)行商業(yè)化交易。

“原始數(shù)據(jù)直接進(jìn)行交易,受到量級大、隱私問題等掣肘?!睆埩纸忉?,數(shù)據(jù)交易的概念已經(jīng)提了很多年了,但并沒有完全被市場接受,團(tuán)隊(duì)認(rèn)為想要數(shù)據(jù)真正流通起來,需要更合理、安全、有效,因此最終確定了參數(shù)層面的數(shù)據(jù)交易。

在團(tuán)隊(duì)設(shè)想中,數(shù)據(jù)精煉工廠跑通后,部分?jǐn)?shù)據(jù)不用重復(fù)訓(xùn)練,效率提升,成本也可降低。

用更少的人和資源把大模型體系做好

大模型熱潮中,如何評價(jià)大模型成為重要問題,這也是各類榜單雨后春筍出現(xiàn)的原因。

共生矩陣上榜C-Eval后,外界聚焦來的目光主要有2點(diǎn):

除了成績不錯(cuò)外,另一個(gè)惹人關(guān)注的點(diǎn)是,他們是榜上少見的小型團(tuán)隊(duì)。

團(tuán)隊(duì)表示,榜單并不是全世界唯一最權(quán)威,但成立一個(gè)月開始上榜,一度殺進(jìn)前三,能夠反“我們用更少的人和資源把大模型體系做好”。

沒錯(cuò),共生矩陣團(tuán)隊(duì)只有不足10人。

人不多,但都挺能打——

CEO張林、CTO王軍杰等團(tuán)隊(duì)中的核心都出自IDEA研究院,在國內(nèi)封神榜預(yù)訓(xùn)練模型開源體系工作中有豐富實(shí)戰(zhàn)經(jīng)驗(yàn)(據(jù)悉,封神榜目前已有超過98個(gè)開源預(yù)訓(xùn)練模型)

張林本人博士畢業(yè)于美國紐約州立大學(xué),在計(jì)算機(jī)國際頂會(huì)上發(fā)表過三十多篇論文,此前是粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(IDEA)資深高級研究員。

王軍杰則是早稻田大學(xué)的計(jì)算機(jī)博士,此前是封神榜大模型團(tuán)隊(duì)的核心成員。

圖片張林

縱觀當(dāng)下的AI市場,小團(tuán)隊(duì)搞好AI并不是沒有先例,最負(fù)盛名的文生圖模型Midjourney背后,只有11個(gè)成員,被稱為新時(shí)代組織的標(biāo)桿。AI 2.0時(shí)代,國內(nèi)外也出現(xiàn)了諸多講求“小而美”的大模型創(chuàng)業(yè)團(tuán)隊(duì)。

當(dāng)然,張林表示更深層原因,是因?yàn)?strong>大模型不是簡單堆人力的項(xiàng)目,需要少數(shù)精英式團(tuán)隊(duì)以保證效率。

他表示訓(xùn)練模型時(shí),技術(shù)層面如算子優(yōu)化、混合精度等,以及背后幾百張卡同時(shí)支持時(shí)通信層面的問題,都非??简?yàn)工程能力。小團(tuán)隊(duì)如果能將遇到的工程性問題解決,提高效率,不必靠大團(tuán)隊(duì)解決。

另外,技術(shù)核心小團(tuán)隊(duì)更有利于保持思想獨(dú)立性,不墨守成規(guī)以探索更多可能性,堆人力反而容易降低整體效率。

據(jù)他預(yù)估,全國大模型領(lǐng)域頂尖的人才“加起來可能也就100人左右”,也沒什么組建大團(tuán)隊(duì)的空間。

因此,團(tuán)隊(duì)將在一定時(shí)間內(nèi)保持“不足十人”這個(gè)規(guī)模。

歸根結(jié)底,這是對AI 2.0時(shí)代與AI 1.0時(shí)代背后范式和理念的理解不同。

交流過程中,張林還很直接地表達(dá)了團(tuán)隊(duì)在另一層面與主流聲音的不同理解,它體現(xiàn)在開閉源理念上。

前段時(shí)間,免費(fèi)可商用的LLaMA-2一出,不少人都表示這對市面上的創(chuàng)業(yè)公司將是巨大打擊,因?yàn)長LaMA-2可以滿足大多數(shù)公司對更低成本和個(gè)性化的需求。

“LLaMA-2并沒有改變市場格局?!惫采鷪F(tuán)隊(duì)眼中,真正領(lǐng)先的團(tuán)隊(duì)并不會(huì)開源核心技術(shù)。

張林還補(bǔ)充道在當(dāng)前階段,開源的意義更多在于教育市場,而非推動(dòng)商業(yè)化。

就像樹莓派對電子發(fā)燒友有意義,但不會(huì)改變手機(jī)電腦市場一樣,LLAMA 2對入門級用戶較有價(jià)值,但對要做商業(yè)化的用戶影響不大。

像這樣帶點(diǎn)“非主流”的觀點(diǎn)和理解,共生矩陣還有不少。

比如不認(rèn)為大模型就是通用AI的終點(diǎn),也不認(rèn)為ChatGPT代表終極方向

他們對獨(dú)角獸式快速擴(kuò)張也持謹(jǐn)慎態(tài)度,更重視團(tuán)隊(duì)凝聚和技術(shù)積淀。

……

對于未來的發(fā)展路線,共生矩陣選擇短期內(nèi)先閉源,未來在合適的機(jī)遇下可能適當(dāng)開源。

開源需要有明確的商業(yè)驅(qū)動(dòng)目標(biāo),當(dāng)前大模型技術(shù)仍處于快速迭代和競爭階段,開源核心技術(shù)有喪失先發(fā)優(yōu)勢的風(fēng)險(xiǎn)。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2020-03-12 10:50:33

編程領(lǐng)域并發(fā)

2022-02-09 16:23:03

工具開源張量

2021-08-18 14:55:10

自動(dòng)駕駛技術(shù)安全

2021-08-31 14:01:59

時(shí)序數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)

2023-05-05 13:14:28

谷歌AI

2017-02-22 07:22:51

2024-05-13 08:05:26

JVMJava逃逸分析

2021-10-04 15:31:00

手機(jī)智能手機(jī)屏幕

2024-04-12 14:34:59

2018-09-27 15:42:15

Python編程語言技術(shù)

2011-03-25 11:28:34

Cactirra目錄

2017-11-02 14:12:07

2024-07-24 11:34:07

2021-03-17 22:47:04

手機(jī)隱私系統(tǒng)

2020-02-17 15:39:01

金山文檔

2018-02-08 17:44:55

超融合

2024-08-14 11:35:48

2020-03-02 19:47:08

戴爾

2020-02-27 15:52:48

AI芯片人工智能爆款

2010-01-05 10:59:24

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號