清華劉知遠(yuǎn):大模型「十問」,尋找新范式下的研究方向
大模型的出現(xiàn)迎來了AI研究的新時代,其所帶來的結(jié)果提升十分顯著,超越了很多領(lǐng)域中針對研究問題設(shè)計特定算法實(shí)現(xiàn)的提升。
具體而言,預(yù)訓(xùn)練到Finetune的新范式最本質(zhì)的特點(diǎn)是統(tǒng)一框架以及統(tǒng)一模型。首先,更加統(tǒng)一的架構(gòu),在預(yù)訓(xùn)練出現(xiàn)之前,CNN、RNN、Gate、Attention等在內(nèi)的算法框架層出不窮。2017年 Transformer出現(xiàn)之后,取代各種流行框架的是一個統(tǒng)一框架。其次,這種統(tǒng)一框架通過預(yù)訓(xùn)練機(jī)制帶來了統(tǒng)一的模型,因而我們現(xiàn)在可以用一個統(tǒng)一模型進(jìn)行微調(diào),使其同時用在非常多的下游任務(wù)上。
那么,在大模型時代有哪些新問題亟待關(guān)注和探索?
由此,我想和大家分享一下十個值得深入探索的問題。希望有更多研究者在大模型時代找到自己的研究方向。
問題如下:
1、理論:大模型的基礎(chǔ)理論是什么?
2、架構(gòu):Transformer是終極框架嗎?
3、能效:如何使大模型更加高效?
4、適配:大模型如何適配到下游任務(wù)?
5、可控性:如何實(shí)現(xiàn)大模型的可控生成?
6、安全性:如何改善大模型中的安全倫理問題?
7、認(rèn)知:如何使大模型獲得高級認(rèn)知能力?
8、應(yīng)用:大模型有哪些創(chuàng)新應(yīng)用?
9、評估:如何評估大模型的性能?
10、易用性:如何降低大模型的使用門檻?
01 理論:大模型的基礎(chǔ)理論是什么?
首先,我認(rèn)為在大模型當(dāng)中第一個非常重要的問題就是它的基礎(chǔ)理論問題。大模型的一個非常重要的特點(diǎn)就是可以利用非常少的下游任務(wù)數(shù)據(jù)進(jìn)行相關(guān)下游任務(wù)的適配,無論是全量下游任務(wù)的訓(xùn)練數(shù)據(jù)還是few-shot learning,甚至zero-shot learning,都能達(dá)到相當(dāng)不錯的效果。同時在預(yù)訓(xùn)練到下游任務(wù)適配過程當(dāng)中,需要要調(diào)整的參數(shù)量可以非常少,這兩個特點(diǎn)都是大模型給我們帶來的新現(xiàn)象。
針對這個現(xiàn)象我們有非常多的問題可以去問:
第一,What——大模型到底是什么?我們應(yīng)該有什么樣比較好的數(shù)學(xué)或者分析工具對大模型進(jìn)行定量分析或者理論分析,這本身就是一個非常重要的問題。
第二,How——大模型為什么好?大模型是如何做到這一點(diǎn)的?Pre-training和Fine-tuning是如何關(guān)聯(lián)在一起的?以及大模型到底學(xué)到了什么?這些是How的問題。
最后,Why——大模型為什么會學(xué)得很好?這方面已經(jīng)有一些非常重要的研究理論,包括過參數(shù)化等理論,但終極理論框架的面紗仍然沒有被揭開。面向這三個方面,即What、How和Why,大模型時代有著非常多值得探索的理論問題。
02 架構(gòu):Transformer是終極框架嗎?
第二個問題,目前大模型使用的主流基礎(chǔ)架構(gòu),Transformer的提出距離我們已經(jīng)有5年的時間(2017年提出)。我們看到,隨著模型規(guī)模的不斷增長,性能提升也逐漸出現(xiàn)邊際效益遞減的情況,那么Transformer是不是終極框架呢?有沒有可能會找到比Transformer更好更高效的框架?這也是一個值得探索的問題。
神經(jīng)網(wǎng)絡(luò)本身是受到了神經(jīng)科學(xué)的啟發(fā),我們可以通過其他學(xué)科的支持去探索下一代大模型框架。其中來自數(shù)學(xué)學(xué)科的啟發(fā)包括,非歐空間Manifold的框架,以及如何將一些幾何先驗(yàn)放到模型里,這些都是最近比較新的研究方向。
我們還可以從工程和物理角度去考慮這個問題,比如State Space Model,以及動態(tài)系統(tǒng)的角度去考慮等等;第三個方面來自于神經(jīng)科學(xué),面向類腦最近一直有人在研究Spiking Neural Network,上述這些都是新型架構(gòu)的前沿研究。到底下一代大模型框架是什么?還沒有一個標(biāo)準(zhǔn)答案,這本身就是一個亟待探索的問題。
03 能效:如何使大模型更加高效?
第三個問題,大模型的性能問題。隨著大模型越變越大,對計算和存儲成本的消耗自然也越來越大。最近有人提出GreenAI的概念,即需要考慮計算能耗的情況來綜合設(shè)計和訓(xùn)練人工智能模型。面向這個問題,我們認(rèn)為,隨著模型變大,AI會越來越需要跟計算機(jī)系統(tǒng)進(jìn)行結(jié)合,從而提出一個更高效面向大模型的支持體系。一方面,我們需要去建設(shè)更加高效分布式訓(xùn)練的算法,在這方面國內(nèi)外都有非常多的相關(guān)探索,包括國際上比較有名的DeepSpeed 以及悟道團(tuán)隊(duì)在開發(fā)的一些加速算法。
另一個方面,大模型一旦訓(xùn)練好去使用時,模型的「大」會讓推理過程變得十分緩慢,因此另外一個前沿方向就是如何高效將模型進(jìn)行盡可能的壓縮,在加速推理的同時保持它的效果。這方面的主要技術(shù)路線包括剪枝、蒸餾、量化等等。同時最近我們發(fā)現(xiàn),大模型里面具有非常強(qiáng)的稀疏發(fā)放的現(xiàn)象,這對于模型的高效壓縮和計算有著非常大的幫助,這方面需要一些專門算法的支持。
04 適配:大模型如何適配到下游任務(wù)?
第四個問題,大模型一旦訓(xùn)好之后如何適配到下游的任務(wù)?模型越大,在已知任務(wù)上效果越好,同時也展現(xiàn)出支持未定義過的復(fù)雜任務(wù)的潛力。同時我們會發(fā)現(xiàn)隨著大模型變得越來越大,適配到下游任務(wù)的計算和存儲開銷會顯著增大。大家看我們統(tǒng)計結(jié)果從2020年到2021年頂會上的論文,你會發(fā)現(xiàn)越來越多的論文在使用預(yù)訓(xùn)練模型,但是真正去使用大模型的論文還是處在非常低的水平。
非常重要的原因就在于即使全世界已經(jīng)開源了非常多的大模型,但是對于很多研究機(jī)構(gòu)來講,他們其實(shí)還是沒有辦法很好把大模型適配到下游任務(wù)上,這方面是大模型一個非常重要的研究前沿,一個非常重要的方向其實(shí)就是剛才唐杰老師有提到的Prompt Tuning,通過把下游任務(wù)形式更改成一個跟預(yù)訓(xùn)練過程中所謂masked language model相似的形式,讓適配過程變得更加平滑和容易。
另外非常重要的一個前沿其實(shí)就是parameter-effcient learning或者Delta Tuning,基本思想就是只去調(diào)整大模型里非常小的一些參數(shù),從而讓這個模型非??斓倪m配到下游任務(wù),會讓適配過程不會變得那么困難,這方面是我們認(rèn)為如何去把大模型快速適配到下游任務(wù)的關(guān)鍵問題,這是一個非常前沿的方向。剛才唐老師提到,我們其實(shí)開源了兩個工具包括OpenPrompt和OpenDelta來支持這個方面的快速研究,也是歡迎大家使用、相關(guān)意見和建議甚至可以貢獻(xiàn)。
05 可控性:如何實(shí)現(xiàn)大模型的可控生成?
第五個問題,大模型的可控生成。目前大模型已經(jīng)可以生成一些新的文本或圖像,但如何精確地將我們想要的條件或者約束加入到生成過程中,這是大模型非常重要的研究方向。
這個方向也有很多技術(shù)方案,其中包括唐老師提到的思路,把一些prompt加入進(jìn)來,讓生成的過程接受我們提供的條件。
這方面也有一些開放性問題,比如如何建立一個統(tǒng)一的可控生成框架,如何實(shí)現(xiàn)比較好的評測方法,對生成的文本進(jìn)行概念性甚至事實(shí)性的自洽檢測,以及如何針對新的數(shù)據(jù)進(jìn)行相關(guān)的生成。
06 安全性:如何改善大模型中的安全倫理問題?
第六個問題,現(xiàn)在的大模型本身在安全倫理方面考慮的比較少。實(shí)際上會容易出現(xiàn)大模型被攻擊的情況,可能稍微改一改輸入就不work。另外,大模型的使用過程也會存在一定的倫理問題,這些問題都需要我們對大模型進(jìn)行有針對性的約束。
在這個方面,包括黃民烈老師等團(tuán)隊(duì)也在開展一些工作,我們發(fā)現(xiàn)大模型特別容易被有意識地植入一些后門(backdoor),從而讓大模型專門在某些特定場景下做出特定響應(yīng),這是非常重要的安全性問題。
另外,此前的研究表明模型越變越大之后,會變得越來越有偏見,越來越不值得被信任,這種信任度降低的趨勢就是我們需要探索的問題。
07 認(rèn)知:如何使大模型獲得高級認(rèn)知能力?
第七個問題,人的高級認(rèn)知能力是否可以讓大模型學(xué)到?能不能讓大模型像人一樣完成一些任務(wù)?人去完成任務(wù)一般會進(jìn)行幾個方面的工作:一,我們會把這項(xiàng)任務(wù)嘗試拆分成若干個簡單任務(wù),第二,針對這些任務(wù)去做一些相關(guān)信息的獲取,最后我們會進(jìn)行所謂的高級推理,從而完成更加復(fù)雜的任務(wù)。
這也是一個非常值得探索的前沿方向,在國際上有WebGPT等方法的嘗試已經(jīng)開始讓大模型學(xué)會使用搜索引擎等等。我們甚至?xí)?,可不可以讓大模型學(xué)會像人一樣網(wǎng)上沖浪,去有針對性地獲取一些相關(guān)信息,進(jìn)而完成任務(wù)。
08 應(yīng)用:大模型有哪些創(chuàng)新應(yīng)用?
第八個問題,大模型在眾多領(lǐng)域的創(chuàng)新應(yīng)用。近年來《Nature》封面文章已經(jīng)出現(xiàn)了五花八門的各種應(yīng)用,大模型也開始在這當(dāng)中扮演至關(guān)重要的角色。這方面一個耳熟能詳?shù)墓ぷ骶褪茿lphaFold,對整個蛋白質(zhì)結(jié)構(gòu)預(yù)測產(chǎn)生了天翻地覆的影響。
未來在這個方向上,關(guān)鍵問題就是如何將領(lǐng)域知識加入AI擅長的大規(guī)模數(shù)據(jù)建模以及大模型生成過程中,這是利用大模型進(jìn)行創(chuàng)新應(yīng)用的重要命題。
09 評估:如何評估大模型的性能?
第九個問題,大模型建得越來越大,結(jié)構(gòu)種類、數(shù)據(jù)源種類、訓(xùn)練目標(biāo)種類也越來越多,這些模型的性能提升到底有多少?在哪些方面我們?nèi)孕枧??有關(guān)大模型性能評價的問題,我們需要一個科學(xué)的標(biāo)準(zhǔn)去判斷大模型的長處和不足,在這方面智源也有相應(yīng)的努力,因此我們提出了「智源指數(shù)」的概念。
10 易用性:如何降低大模型的使用門檻?
最后,我們認(rèn)為大模型已經(jīng)在統(tǒng)一框架和統(tǒng)一模型支持下展現(xiàn)出非常強(qiáng)大的實(shí)力,未來有希望廣泛應(yīng)用在各種各樣的場景中。而為了更廣泛的應(yīng)用,需要解決的問題是如何降低它的使用門檻。在這方面,我們應(yīng)該受到歷史上數(shù)據(jù)庫系統(tǒng)以及大數(shù)據(jù)分析系統(tǒng)的啟發(fā),需要構(gòu)建大模型的系統(tǒng),并在底層相關(guān)計算設(shè)備、系統(tǒng)的支持、用戶接口以及應(yīng)用普世性等方面進(jìn)行統(tǒng)一的考量。
在這方面,在清華大學(xué)和智源研究院支持下,我們最近在開發(fā)一套面向大模型的支持系統(tǒng),在訓(xùn)練、微調(diào)、推理到后處理等各個方面都能提供全流程的高效計算支持,該系統(tǒng)預(yù)計將在3月底正式發(fā)布。現(xiàn)在個別套件已經(jīng)可以在網(wǎng)上獲取,歡迎大家利用大模型系統(tǒng),更好地遨游在大模型的時代,做出前沿的探索和應(yīng)用。
總結(jié)來看,上述十個問題是我認(rèn)為非常重要值得探索的方向,希望更多同學(xué)、更多研究者在大模型的時代去發(fā)現(xiàn)值得研究的問題。這是一個全新的時代,有些老的問題消失了,也有更多新的問題出現(xiàn),期待我們一起去探索它們。