2022前展望大模型的未來(lái),周志華、唐杰、楊紅霞這些大咖怎么看?
歲末年初之際,讓我們回顧大模型的過(guò)去,展望大模型的未來(lái)。
28 日,阿里巴巴達(dá)摩院發(fā)布 2022 十大科技趨勢(shì)。其中,“大模型參數(shù)競(jìng)賽進(jìn)入冷靜期,大小模型將在云邊端協(xié)同進(jìn)化”的斷言,在 AI 圈備受關(guān)注。
2021 是大模型爆發(fā)之年,我們見(jiàn)證了大模型的驚艷,但也了解了目前大模型的一些局限,如顯著的高能耗等問(wèn)題。
達(dá)摩院認(rèn)為,超大規(guī)模預(yù)訓(xùn)練模型是從弱人工智能向通用人工智能的突破性探索,解決了傳統(tǒng)深度學(xué)習(xí)的應(yīng)用碎片化難題,但性能與能耗提升不成比例的效率問(wèn)題限制了參數(shù)規(guī)模繼續(xù)擴(kuò)張。
接下來(lái),人工智能研究將從大模型參數(shù)競(jìng)賽走向大小模型的協(xié)同進(jìn)化,大模型向邊、端的小模型輸出模型能力,小模型負(fù)責(zé)實(shí)際的推理與執(zhí)行,同時(shí)小模型再向大模型反饋算法與執(zhí)行成效,讓大模型的能力持續(xù)強(qiáng)化,形成有機(jī)循環(huán)的智能體系。
周志華、唐杰、楊紅霞等多位學(xué)界、業(yè)界代表性專家,對(duì)此發(fā)表了評(píng)論。
大模型接下來(lái)會(huì)如何發(fā)展?歲末年初之際,讓我們回顧大模型的過(guò)去,展望大模型的未來(lái)。
大小模型將承擔(dān)不同角色
南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系主任兼人工智能學(xué)院院長(zhǎng) 周志華
大模型一方面在不少問(wèn)題上取得了以往難以預(yù)期的成功,另一方面其巨大的訓(xùn)練能耗和碳排放是不能忽視的問(wèn)題。個(gè)人以為,大模型未來(lái)會(huì)在一些事關(guān)國(guó)計(jì)民生的重大任務(wù)上發(fā)揮作用,而在其他一些場(chǎng)景下或許會(huì)通過(guò)類似集成學(xué)習(xí)的手段來(lái)利用小模型,尤其是通過(guò)很少量訓(xùn)練來(lái) “復(fù)用” 和集成已有的小模型來(lái)達(dá)到不錯(cuò)的性能。
我們提出了一個(gè)叫做 “學(xué)件” 的思路,目前在做一些這方面的探索。大致思想是,假設(shè)很多人已經(jīng)做了模型并且樂(lè)意放到某個(gè)市場(chǎng)去共享,市場(chǎng)通過(guò)建立規(guī)約來(lái)組織和管理學(xué)件,以后的人再做新應(yīng)用時(shí),就可以不用從頭收集數(shù)據(jù)訓(xùn)練模型,可以先利用規(guī)約去市場(chǎng)里找找看是否有比較接近需求的模型,然后拿回家用自己的數(shù)據(jù)稍微打磨就能用。這其中還有一些技術(shù)挑戰(zhàn)需要解決,我們正在研究這個(gè)方向。
另一方面,有可能通過(guò)利用人類的常識(shí)和專業(yè)領(lǐng)域知識(shí),使模型得以精簡(jiǎn),這就要結(jié)合邏輯推理和機(jī)器學(xué)習(xí)。邏輯推理比較善于利用人類知識(shí),機(jī)器學(xué)習(xí)比較善于利用數(shù)據(jù)事實(shí),如何對(duì)兩者進(jìn)行有機(jī)結(jié)合一直是人工智能中的重大挑戰(zhàn)問(wèn)題。麻煩的是邏輯推理是嚴(yán)密的基于數(shù)理邏輯的 “從一般到特殊”的演繹過(guò)程,機(jī)器學(xué)習(xí)是不那么嚴(yán)密的概率近似正確的 “從特殊到一般”的歸納過(guò)程,在方法論上就非常不一樣。已經(jīng)有的探索大體上是以其中某一方為倚重,引入另一方的某些成分,我們最近在探索雙方相對(duì)均衡互促利用的方式。
站在 2022,展望大模型的未來(lái)
清華大學(xué)計(jì)算機(jī)系教授,北京智源人工智能研究院學(xué)術(shù)副院長(zhǎng) 唐杰
2021 年,超大規(guī)模預(yù)訓(xùn)練模型(簡(jiǎn)稱大模型)成為國(guó)際人工智能前沿研究和應(yīng)用的熱點(diǎn),發(fā)展迅速也面臨系列挑戰(zhàn)。最新發(fā)布的《達(dá)摩院 2022 十大科技趨勢(shì)》將 “大小模型協(xié)同進(jìn)化” 列為 AI 模型發(fā)展的新方向,提出“大模型參數(shù)競(jìng)賽進(jìn)入冷靜期,大小模型將在云邊端協(xié)同進(jìn)化”,值得業(yè)界關(guān)注。站在年末歲初,讓我們一起回望大模型的 2021,展望它的 2022 和更遠(yuǎn)未來(lái)。
一、超大規(guī)模預(yù)訓(xùn)練模型迅速發(fā)展但也面臨系列挑戰(zhàn)
2021 年 8 月,斯坦福大學(xué)成立基礎(chǔ)模型研究中心(CRFM)并將 BERT、GPT-3 和 CLIP 等基于大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練并可以適應(yīng)廣泛下游任務(wù)的模型統(tǒng)稱為 “基礎(chǔ)模型”。雖然這個(gè)概念在學(xué)術(shù)界引起了不少爭(zhēng)議,有學(xué)者對(duì)于模型是否具有“基礎(chǔ)性” 提出了質(zhì)疑,但是應(yīng)該看到,這些模型所表現(xiàn)出的能夠更好處理現(xiàn)實(shí)世界復(fù)雜性的能力,使得它們變得愈發(fā)重要。
產(chǎn)業(yè)界持續(xù)推動(dòng)大模型研發(fā),并不斷將模型的規(guī)模和性能推向新高。1 月,OpenAI 發(fā)布大規(guī)模多模態(tài)預(yù)訓(xùn)練模型 DALL·E 和 CLIP,谷歌發(fā)布 1.6 萬(wàn)億規(guī)模預(yù)訓(xùn)練語(yǔ)言模型 Switch Transformer,10 月,微軟和英偉達(dá)發(fā)布 5300 億規(guī)模的 Megatron-Turing 自然語(yǔ)言生成模型 MT-NLG。另外,大模型應(yīng)用也在不斷豐富,目前全球基于 GPT-3 的商業(yè)應(yīng)用已有幾百個(gè),隨著近期 GPT-3 全面開(kāi)放 API 申請(qǐng)和微調(diào)功能,GPT-3 應(yīng)用生態(tài)也將加速形成。
2021 年也是我國(guó)超大規(guī)模預(yù)訓(xùn)練模型發(fā)展的“元年”,目前,已有智源研究院、鵬城實(shí)驗(yàn)室、中科院自動(dòng)化所、阿里、百度、華為、浪潮等科研院所和企業(yè)研相繼發(fā)出“悟道”、“盤古”、“紫東 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。
雖然國(guó)內(nèi)外超大規(guī)模預(yù)訓(xùn)練模型取得了較大進(jìn)展,但是同時(shí)也應(yīng)認(rèn)識(shí)到,大模型發(fā)展還有很多亟待解決的重要問(wèn)題。例如,預(yù)訓(xùn)練模型的理論基礎(chǔ)尚未明確(如大模型智能的參數(shù)規(guī)模極限存在嗎),大模型如何高效、低成本的應(yīng)用于實(shí)際系統(tǒng);其次構(gòu)建大模型需要克服數(shù)據(jù)質(zhì)量、訓(xùn)練效率、算力消耗、模型交付等諸多障礙;最后目前大部分大模型普遍缺乏認(rèn)知能力的問(wèn)題,這也是部分學(xué)者質(zhì)疑這類模型能否被稱為 “基礎(chǔ)模型” 的原因之一。能否通過(guò)大模型實(shí)現(xiàn)更通用的智能?怎么實(shí)現(xiàn)?這些都需要學(xué)術(shù)界和產(chǎn)業(yè)界不斷探索。
二、大模型打造數(shù)據(jù)與知識(shí)雙輪驅(qū)動(dòng)的認(rèn)知智能
人工智能經(jīng)過(guò)數(shù)十年的發(fā)展,歷經(jīng)符號(hào)智能、感知智能兩個(gè)時(shí)代,目前來(lái)到第三代人工智能即認(rèn)知智能的大門口。認(rèn)知智能不僅要求基于大數(shù)據(jù)的深度學(xué)習(xí)及對(duì)應(yīng)的感知識(shí)別,還要求機(jī)器具有認(rèn)知和推理能力,要讓機(jī)器具備與人接近的常識(shí)和邏輯,這就對(duì)數(shù)據(jù)與知識(shí)的融合提出了迫切需求。
回顧人工智能的發(fā)展,1968 年圖靈獎(jiǎng)獲得者 Edward Feigenbaum 研發(fā)出世界首個(gè)專家系統(tǒng) DENDRAL;1999 年互聯(lián)網(wǎng)發(fā)明人、圖靈獎(jiǎng)獲得者 Tim Berners-Lee 爵士提出語(yǔ)義網(wǎng)的概念;圖靈獎(jiǎng)獲得者 Yoshua Bengio 在 2019 年 NeurIPS 大會(huì)的主題報(bào)告中指出,深度學(xué)習(xí)應(yīng)該從感知為主向基于認(rèn)知的邏輯推理和知識(shí)表達(dá)方向發(fā)展,這個(gè)思想和清華大學(xué)張鈸院士提出的第三代人工智能思路不謀而合。同期,美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)發(fā)布 AI NEXT 計(jì)劃,核心思路是推進(jìn)數(shù)據(jù)計(jì)算與知識(shí)推理融合的計(jì)算,還委托了伯克利等機(jī)構(gòu),開(kāi)展 SYMBOLIC - NEURAL NEWORK(符號(hào)加神經(jīng)網(wǎng)絡(luò)計(jì)算)研究,其目的就是要加快推進(jìn)這一進(jìn)程。
總的來(lái)說(shuō),研究數(shù)據(jù)與知識(shí)融合的雙輪驅(qū)動(dòng) AI 時(shí)代已經(jīng)到來(lái),核心是利用知識(shí)、數(shù)據(jù)、算法和算力 4 個(gè)要素,不僅是使用數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)建構(gòu)模型,還需要將用戶行為、常識(shí)知識(shí)以及認(rèn)知聯(lián)系起來(lái),主動(dòng) “學(xué)習(xí)” 與創(chuàng)造。
智源研究院研發(fā)的 “悟道” 大模型是我國(guó)具有代表性的超大規(guī)模預(yù)訓(xùn)練模型,探索了大模型研發(fā)的另外一條路徑,旨在打造數(shù)據(jù)與知識(shí)雙輪驅(qū)動(dòng)的認(rèn)知智能,建立超越圖靈測(cè)試的通用機(jī)器認(rèn)知能力,讓機(jī)器像人一樣“思考”。
在大模型研發(fā)過(guò)程中,我們初步定義了大模型需要具備的 9 種機(jī)器認(rèn)知能力(T9 準(zhǔn)則):
1. 適應(yīng)與學(xué)習(xí)能力:機(jī)器具有一定的模仿能力,能夠通過(guò)模仿和反饋學(xué)習(xí)人的語(yǔ)言和行為;
2. 定義與情境化能力:機(jī)器能夠根據(jù)感知上下文場(chǎng)景做出反應(yīng)(語(yǔ)言和行為反饋),并保證反應(yīng)的一致性;
3. 自我系統(tǒng)的準(zhǔn)入能力:機(jī)器具有一個(gè)穩(wěn)定的人設(shè)(如:穩(wěn)定的心理大五人格),在生成對(duì)待事物的觀點(diǎn)時(shí),不會(huì)隨意改變自己的觀點(diǎn)和情感傾向;
4. 優(yōu)先級(jí)與訪問(wèn)控制能力:機(jī)器具有能發(fā)現(xiàn)自我觀點(diǎn)的矛盾和糾結(jié),但最終能做出一個(gè)選擇,并在后續(xù)行為中保持一致;
5. 召集與控制能力:機(jī)器能主動(dòng)搜索與自身人設(shè)一致或者符合自身利益的內(nèi)容(新聞),并對(duì)其進(jìn)行正面評(píng)論;反之也能搜索與自身人設(shè)相違背的內(nèi)容,并對(duì)其進(jìn)行反駁;
6. 決策與執(zhí)行能力:機(jī)器能主動(dòng)搜索內(nèi)容信息、統(tǒng)計(jì)其他機(jī)器與人的觀點(diǎn)與傾向,根據(jù)自身人設(shè)做出對(duì)自己有利的決策并執(zhí)行;
7. 錯(cuò)誤探測(cè)與編輯能力:機(jī)器能自動(dòng)對(duì)無(wú)法判斷的事物進(jìn)行假設(shè),并進(jìn)行追蹤,如果發(fā)現(xiàn)假設(shè)錯(cuò)誤或者假設(shè)不完備,能自動(dòng)進(jìn)行編輯修正;
8. 反思與自我監(jiān)控能力:機(jī)器具有自動(dòng)校驗(yàn)?zāi)芰?,如果發(fā)現(xiàn)執(zhí)行的操作不正確,具有自我監(jiān)控和修正的能力;
9. 條理與靈活性之間的能力:機(jī)器能夠自動(dòng)規(guī)劃和保證執(zhí)行操作之間的條理性;同時(shí)如果發(fā)現(xiàn)條理不正確的時(shí)候,具有一定靈活性,可以修正自己的行為。
要全面實(shí)現(xiàn)以上 9 種機(jī)器認(rèn)知能力還有很長(zhǎng)的路要走,但我們堅(jiān)信下一個(gè)人工智能浪潮的興起必然伴隨著認(rèn)知智能的實(shí)現(xiàn),讓機(jī)器具有推理、解釋、認(rèn)知能力,在多項(xiàng)人類感知與認(rèn)知任務(wù)中超越圖靈測(cè)試。大模型已經(jīng)在認(rèn)知智能發(fā)展上進(jìn)行了一年的探索,并取得階段進(jìn)展。
三、大模型的未來(lái)
《達(dá)摩院 2022 十大科技趨勢(shì)》提出,大小模型將在云邊端協(xié)同進(jìn)化。大模型向邊、端的小模型輸出模型能力,小模型負(fù)責(zé)實(shí)際的推理與執(zhí)行,同時(shí)小模型再向大模型反饋算法與執(zhí)行成效,讓大模型的能力持續(xù)強(qiáng)化,形成有機(jī)循環(huán)的智能體系。這一觀點(diǎn)富有啟發(fā)性,而且有助于大模型從實(shí)驗(yàn)室走向規(guī)?;漠a(chǎn)業(yè)應(yīng)用。
在我看來(lái),未來(lái)大規(guī)模研究將更加注重原始創(chuàng)新,圍繞認(rèn)知智能以及高效應(yīng)用等多個(gè)角度展開(kāi)。
在認(rèn)知智能方面,模型參數(shù)不排除進(jìn)一步增加的可能,甚至到百萬(wàn)億、千萬(wàn)億規(guī)模,但參數(shù)競(jìng)賽本身不是目的,而是要探究進(jìn)一步性能提升的可能性。大模型研究同時(shí)注重架構(gòu)原始創(chuàng)新,通過(guò)模型持續(xù)學(xué)習(xí)、增加記憶機(jī)制、突破三元組知識(shí)表示方法等方法進(jìn)一步提升萬(wàn)億級(jí)模型的認(rèn)知智能能力。在模型本身方面,多模態(tài)、多語(yǔ)言、面向編程的新型模型也將成為研究的重點(diǎn)。
在高效應(yīng)用方面,將大大降低大模型使用門檻,讓大模型用起來(lái),促進(jìn)中小企業(yè)形成 “大模型 + 少量數(shù)據(jù)微調(diào)” 的 AI 工業(yè)化開(kāi)發(fā)模式。主要實(shí)現(xiàn):
1)降成本:降低模型在預(yù)訓(xùn)練、適配下游任務(wù)、推理過(guò)程中的算力消耗;
2)提速度:通過(guò)模型蒸餾、模型裁剪等手段提升千億或以上規(guī)模模型推理速度 2 個(gè)數(shù)量級(jí);
3)搭平臺(tái):通過(guò)搭建一站式開(kāi)發(fā)及應(yīng)用平臺(tái)提供從在線模型構(gòu)建、在線模型部署、應(yīng)用發(fā)布的全流程預(yù)訓(xùn)練服務(wù),能夠支持成百上千個(gè)應(yīng)用的開(kāi)發(fā)與部署,相信后續(xù)大模型的廣泛應(yīng)用將成為賦智我國(guó)經(jīng)濟(jì)高質(zhì)量發(fā)展的關(guān)鍵助推劑。
思考的快與慢,與下一代人工智能
阿里巴巴達(dá)摩院人工智能科學(xué)家 楊紅霞
人工智能學(xué)者一直試圖從大腦工作模式中汲取靈感,但大腦究竟如何思考是非常復(fù)雜的課題。諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者丹尼爾 · 卡內(nèi)曼教授的《思考, 快與慢》指出,人的思考有兩種模式。我們很多時(shí)候下意識(shí)地作出反應(yīng),是快的模式。舉個(gè)例子,如果每天從家到公司的路線一模一樣,就不需要做太多思考,沿著原路走就行,這是快思考。什么是慢思考?突然有一天,公司和家之間在修路,需要重新規(guī)劃路徑,這時(shí)就不得不進(jìn)行慢思考。
基于大腦思考的模式,解決下一代人工智能的核心認(rèn)知推理問(wèn)題,是我們團(tuán)隊(duì)近幾年最重要的目標(biāo)。GPT-3 激發(fā)了大家投入大模型研發(fā)的巨大熱情,但由于大模型的能耗和效率問(wèn)題,學(xué)界又對(duì)是否一定要用大模型提出疑問(wèn)。通過(guò)大量的實(shí)際探索,我們認(rèn)為,大模型和小模型可以協(xié)同發(fā)展,分別承擔(dān)慢思考和快思考的任務(wù)。云上能容納海量知識(shí)的大模型,就像超級(jí)大腦,有能力進(jìn)行慢思考,而在端上與大模型協(xié)同的小模型可以執(zhí)行快思考。
近年來(lái),隨著預(yù)訓(xùn)練技術(shù)在深度學(xué)習(xí)領(lǐng)域的飛速發(fā)展,預(yù)訓(xùn)練大模型(大模型)逐漸走進(jìn)人們的視野,成為人工智能領(lǐng)域的焦點(diǎn)。大模型在文本、圖像處理、視頻、語(yǔ)音等多個(gè) AI 領(lǐng)域?qū)崿F(xiàn)較大突破進(jìn)展,并逐漸成為 AI 的基礎(chǔ)模型(Foundation Model),同時(shí)大模型也在積極與生命科學(xué)領(lǐng)域進(jìn)行結(jié)合,包括在蛋白質(zhì)、基因等方向取得進(jìn)展,并在細(xì)胞分類、基因調(diào)控關(guān)系發(fā)現(xiàn)、細(xì)菌耐藥性分析等任務(wù)中前景廣闊。可以認(rèn)為大模型是目前解決推理認(rèn)知問(wèn)題最先進(jìn)的工具,不過(guò)預(yù)訓(xùn)練大模型還有亟待突破的幾個(gè)課題,比如:
1、目前的主流實(shí)踐是先通過(guò)訓(xùn)練大模型(Pretrained Model),得到參數(shù)規(guī)模大、精度高的模型后,再基于下游任務(wù)數(shù)據(jù),通過(guò)剪枝、微調(diào)的方法(Finetune)將模型的體積壓縮,在基本不損失精度的情況下減輕部署的壓力,目前業(yè)界還沒(méi)找到通用的、直接訓(xùn)練小型模型就能得到較滿意精度的辦法;
2、訓(xùn)練千億、萬(wàn)億模型動(dòng)輒就上千張 GPU 卡,給大模型的推廣和普惠帶來(lái)了很大的挑戰(zhàn);
3、預(yù)訓(xùn)練模型 Pretrain 階段參數(shù)量大,目前主要采用大量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行訓(xùn)練,如何與知識(shí)等結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)合,讓模型更加有效地實(shí)現(xiàn)認(rèn)知推理,也是一個(gè)非常大的挑戰(zhàn)。
在解決大模型亟待突破的課題方面,我們做了不少嘗試,可供業(yè)界參考。今年 11 月,我們發(fā)布了全球首個(gè) 10 萬(wàn)億參數(shù)的多模態(tài)大模型 M6,相比去年發(fā)布的 GPT-3,實(shí)現(xiàn)同等參數(shù)模型能耗僅為其 1%,降低了大模型實(shí)現(xiàn)門檻,推動(dòng)了普惠 AI 的發(fā)展。今年 10 月我們對(duì)外開(kāi)放的云服務(wù)化平臺(tái)是目前業(yè)界覆蓋下游任務(wù)最廣泛的平臺(tái),涵蓋各項(xiàng)單模態(tài)和跨模態(tài)的理解及生成任務(wù)。目前,M6 已在阿里巴巴超 50 余個(gè)不同業(yè)務(wù)場(chǎng)景中應(yīng)用。
未來(lái),除了通過(guò)低碳化發(fā)展綠色 AI、平臺(tái)化應(yīng)用推進(jìn)普惠 AI 以及突破認(rèn)知推理等技術(shù)外,我們希望大模型還能積極探索與科學(xué)應(yīng)用的結(jié)合,潛在科學(xué)應(yīng)用方向可能包括腦神經(jīng)連接圖譜繪制、腦機(jī)接口、透明海洋等領(lǐng)域。
在形成更高效、更廣泛的智能體系上,大小模型在云邊端協(xié)同進(jìn)化帶來(lái)了新的可能性。在邊端與大模型協(xié)同的小模型執(zhí)行快思考方面,我們也進(jìn)行了積極探索和規(guī)?;涞亍4竽P涂梢韵蜻?、端小模型的輸出,讓小模型更容易獲取通用的知識(shí)與能力,小模型專注在特定場(chǎng)景做極致優(yōu)化,提升了性能與效率;同時(shí)小模型向大模型反饋執(zhí)行成效,解決了過(guò)去大模型數(shù)據(jù)集過(guò)于單一的問(wèn)題,最后全社會(huì)不需要重復(fù)訓(xùn)練相似的大模型,模型可以被共享,算力與能源的使用效率得以最大化。這一模式有望構(gòu)建下一代人工智能的基礎(chǔ)設(shè)施,在讓人工智能的通用能力進(jìn)一步提升。
經(jīng)歷符號(hào)主義的衰落與深度學(xué)習(xí)的繁榮,我們來(lái)到了新的路口??萍嫉倪M(jìn)程往往由天才般的靈感與極大量的實(shí)踐推進(jìn),人工智能的演進(jìn)也是如此,在收斂與發(fā)散之間不斷尋找突破口。大模型是一個(gè)令人激動(dòng)的里程碑,接下來(lái)該走向何方,我們或許可以繼續(xù)向自身追問(wèn),在快思考與慢思考中獲取新的啟示。