悟道2.O問世,構(gòu)建以中文為核心的超大規(guī)模預(yù)訓(xùn)練模型平臺(tái)生態(tài)
原創(chuàng)【51CTO.com原創(chuàng)稿件】
???
去年5月,GPT-3問世。OpenAI 發(fā)布的這個(gè)預(yù)訓(xùn)練模型擁有 1750 億參數(shù)量,不僅能寫文章、答題、翻譯,還具備多輪對(duì)話、敲代碼、數(shù)學(xué)計(jì)算等能力。其所使用的最大訓(xùn)練數(shù)據(jù)集在處理前就達(dá)到了 45TB,至此GPT-3一躍成為AI界的“流量”明星,褒揚(yáng)與批評(píng)齊飛,質(zhì)疑與爭議不斷,但無論外界評(píng)價(jià)如何,它都展示了一條通往通用人工智能的可行路徑,因此構(gòu)建超大規(guī)模預(yù)訓(xùn)練模型成為潮流所向。
今年3月,中國 AI 學(xué)界迎來了第一個(gè)超大規(guī)模預(yù)訓(xùn)練模型“悟道”。這個(gè)以中文為核心的超大規(guī)模預(yù)訓(xùn)練模型由智源研究院牽頭,匯聚清華、北大、人大、中科院等高校院所以及諸多企業(yè)的 100 余位 AI 領(lǐng)域?qū)<夜餐邪l(fā),從基礎(chǔ)性能、有效使用到預(yù)訓(xùn)練模型擴(kuò)展,提出了一系列創(chuàng)新解決方法。
在此3個(gè)月后,“悟道2.0”現(xiàn)世,不僅在預(yù)訓(xùn)練模型架構(gòu)、微調(diào)算法、高效預(yù)訓(xùn)練框架方面均實(shí)現(xiàn)了原始理論創(chuàng)新,在世界公認(rèn)的多個(gè) AI Benchmark 榜單上也表現(xiàn)不俗,取得了多項(xiàng)任務(wù)能力的領(lǐng)先地位。
清華大學(xué)教授,智源研究院學(xué)術(shù)副院長唐杰介紹,“悟道”的定位,從一開始就不止要做“中國第一”,而是瞄向世界頂尖水平,讓機(jī)器像人一樣思考,邁向通用人工智能。
何以悟道
唐杰在采訪中總結(jié)了“悟道2.0”的幾個(gè)特點(diǎn)——最大、準(zhǔn)確、實(shí)用。
首先,所謂“最大”指的是“悟道2.0”參數(shù)達(dá)到1.75萬億,打破了此前谷歌 Switch Transformer 預(yù)訓(xùn)練模型創(chuàng)造的 1.6 萬億參數(shù)記錄,也超過OpenAI開發(fā)的第三代生成式預(yù)訓(xùn)練Transformer(GPT-3)10倍,是全球最大預(yù)訓(xùn)練模型。尤其值得?提是,這個(gè)世界最?萬億模型完全基于國產(chǎn)超算平臺(tái)打造,其基礎(chǔ)算法是在中國的神威超算上完成模型訓(xùn)練。
之所以智源與智譜AI團(tuán)隊(duì)能打造目前“最大”的預(yù)訓(xùn)練模型是因?yàn)閳F(tuán)隊(duì)首創(chuàng)的FastMoE技術(shù)打破了國外MoE技術(shù)存在的限制瓶頸。FastMoE作為首個(gè)支持PyTorch框架的MoE系統(tǒng),具有易用性強(qiáng)、靈活性好、訓(xùn)練速度快的優(yōu)勢(shì),可在不同規(guī)模的計(jì)算機(jī)或集群上支持研究者探索不同的MoE模型在不同領(lǐng)域的應(yīng)用。相比直接使用PyTorch實(shí)現(xiàn)的版本,提速47倍。FastMoE可以支持NoisyGate、GShard、Swith Transformer等復(fù)雜均衡策略,支持不同專家不同模型,目前已基于阿里 PAI 平臺(tái),亦在國產(chǎn)神威眾核超算平臺(tái)成功部署。
其次,在“準(zhǔn)確”方面,“悟道2.0”同樣表現(xiàn)亮眼,在 ImageNet、LAMA、LAMBADA、SuperGLUE、MSCOCO 等項(xiàng)目都取得了突破,獲得了9項(xiàng)任務(wù)上的 SOTA,比第二名的表現(xiàn)要出色很多。而且目前“悟道2.0”在問答、繪畫、作詩、視頻等任務(wù)中都已逼近圖靈測(cè)試。
然后,在“實(shí)用”方面,“悟道2.0”也采取了多項(xiàng)措施積極推進(jìn)。眾所周知,大規(guī)模預(yù)訓(xùn)練模型的參數(shù)規(guī)模通常遠(yuǎn)超傳統(tǒng)的專用人工智能模型,在算力資源、訓(xùn)練時(shí)間等方面消耗巨大。為了提升大規(guī)模預(yù)訓(xùn)練模型的產(chǎn)業(yè)普適性和易用性,悟道團(tuán)隊(duì)搭建高效預(yù)訓(xùn)練框架,實(shí)現(xiàn)了全鏈路的原創(chuàng)突破或迭代優(yōu)化,預(yù)訓(xùn)練效率大幅提升。而且“悟道2.0”和GPT-3小批量付費(fèi)使用的模式不同,將向AI社區(qū)和企業(yè)公開預(yù)測(cè)模型,任何個(gè)人或企業(yè)均可免費(fèi)申請(qǐng)使用其公開API。(https://wudaoai.cn/home)
生態(tài)構(gòu)建
通常AI科學(xué)界認(rèn)為模型參數(shù)越大,意味著通用人工智能潛能越強(qiáng)。不過大模型的出現(xiàn)只是基石,還需要大生態(tài)的加持,才能真正加速人工智能應(yīng)用的落地。唐杰在采訪中提到:“我們?cè)谒伎家粋€(gè)問題——生態(tài)。怎么構(gòu)建生態(tài)讓萬億模型有生命力,而不是簡單的數(shù)數(shù)字?!?/p>
“我們要建立‘悟道’生態(tài),把產(chǎn)業(yè)生態(tài)、開源生態(tài),應(yīng)用生態(tài)、數(shù)據(jù)生態(tài)全部打造起來,讓所有人參與其中。你可以做研發(fā)、應(yīng)用甚至產(chǎn)業(yè)化,如果你只有數(shù)據(jù),那也可以貢獻(xiàn)數(shù)據(jù)、分享數(shù)據(jù)。在生態(tài)助力的情況下,整個(gè)模型才能越做越智能?!?/p>
為了加速生態(tài)構(gòu)建,“悟道2.0”在效率和易用性上盡力為開發(fā)者提供了便利。
悟道 2.0預(yù)訓(xùn)練框架具有“高效編碼、高效模型、高效訓(xùn)練、高效微調(diào)、高效推理”五大特點(diǎn),切實(shí)面向產(chǎn)業(yè)界的應(yīng)用。悟道 2.0預(yù)訓(xùn)練框架還整合了全球最大的中文語料庫WuDaoCorpora,包括最大中文文本數(shù)據(jù)集、多模態(tài)數(shù)據(jù)集與中文對(duì)話數(shù)據(jù)集。
任何企業(yè)、開發(fā)者拿到“悟道 2.0”預(yù)訓(xùn)練框架以后,都可以非??斓剡M(jìn)行部署,然后應(yīng)用在實(shí)際業(yè)務(wù)中。目前,“悟道 2.0”已經(jīng)與美團(tuán)、小米、快手、360、搜狗、寒武紀(jì)、第四范式、推想科技、好未來、小冰科技等達(dá)成合作共建模型生態(tài)。
“煉大模型”雖然是時(shí)之所趨,但也會(huì)有人提出質(zhì)疑:超大規(guī)模預(yù)訓(xùn)練模型的進(jìn)化是否是實(shí)現(xiàn)通用人工智能的必要條件呢?對(duì)此,唐杰給出了這樣的回答。
“我們只能說這是一條可行的路徑。幾年前,通用人工智能戰(zhàn)略,也就是AGI戰(zhàn)略提出時(shí)很多人要么嗤之以鼻,要么覺得不可能。但當(dāng)下在這條路上,大家至少看到了一點(diǎn)點(diǎn)成績,所以我覺得這是一種非??赡艿穆窂?。未來是否一定是唯一或者必要的,這不一定?!?/p>
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】