清華劉知遠(yuǎn)：大模型「十問」，尋找新范式下的研究方向

作者：劉知遠(yuǎn) 2022-04-06 15:00:03

在大模型時代有哪些新問題亟待關(guān)注和探索？

大模型的出現(xiàn)迎來了AI研究的新時代，其所帶來的結(jié)果提升十分顯著，超越了很多領(lǐng)域中針對研究問題設(shè)計特定算法實(shí)現(xiàn)的提升。

具體而言，預(yù)訓(xùn)練到Finetune的新范式最本質(zhì)的特點(diǎn)是統(tǒng)一框架以及統(tǒng)一模型。首先，更加統(tǒng)一的架構(gòu)，在預(yù)訓(xùn)練出現(xiàn)之前，CNN、RNN、Gate、Attention等在內(nèi)的算法框架層出不窮。2017年 Transformer出現(xiàn)之后，取代各種流行框架的是一個統(tǒng)一框架。其次，這種統(tǒng)一框架通過預(yù)訓(xùn)練機(jī)制帶來了統(tǒng)一的模型，因而我們現(xiàn)在可以用一個統(tǒng)一模型進(jìn)行微調(diào)，使其同時用在非常多的下游任務(wù)上。

那么，在大模型時代有哪些新問題亟待關(guān)注和探索？

由此，我想和大家分享一下十個值得深入探索的問題。希望有更多研究者在大模型時代找到自己的研究方向。

問題如下：

1、理論：大模型的基礎(chǔ)理論是什么？

2、架構(gòu)：Transformer是終極框架嗎？

3、能效：如何使大模型更加高效？

4、適配：大模型如何適配到下游任務(wù)？

5、可控性：如何實(shí)現(xiàn)大模型的可控生成？

6、安全性：如何改善大模型中的安全倫理問題？

7、認(rèn)知：如何使大模型獲得高級認(rèn)知能力？

8、應(yīng)用：大模型有哪些創(chuàng)新應(yīng)用？

9、評估：如何評估大模型的性能？

10、易用性：如何降低大模型的使用門檻？

01 理論：大模型的基礎(chǔ)理論是什么？

首先，我認(rèn)為在大模型當(dāng)中第一個非常重要的問題就是它的基礎(chǔ)理論問題。大模型的一個非常重要的特點(diǎn)就是可以利用非常少的下游任務(wù)數(shù)據(jù)進(jìn)行相關(guān)下游任務(wù)的適配，無論是全量下游任務(wù)的訓(xùn)練數(shù)據(jù)還是few-shot learning，甚至zero-shot learning，都能達(dá)到相當(dāng)不錯的效果。同時在預(yù)訓(xùn)練到下游任務(wù)適配過程當(dāng)中，需要要調(diào)整的參數(shù)量可以非常少，這兩個特點(diǎn)都是大模型給我們帶來的新現(xiàn)象。

針對這個現(xiàn)象我們有非常多的問題可以去問：

第一，What——大模型到底是什么？我們應(yīng)該有什么樣比較好的數(shù)學(xué)或者分析工具對大模型進(jìn)行定量分析或者理論分析，這本身就是一個非常重要的問題。

第二，How——大模型為什么好？大模型是如何做到這一點(diǎn)的？Pre-training和Fine-tuning是如何關(guān)聯(lián)在一起的？以及大模型到底學(xué)到了什么？這些是How的問題。

最后，Why——大模型為什么會學(xué)得很好？這方面已經(jīng)有一些非常重要的研究理論，包括過參數(shù)化等理論，但終極理論框架的面紗仍然沒有被揭開。面向這三個方面，即What、How和Why，大模型時代有著非常多值得探索的理論問題。

02 架構(gòu)：Transformer是終極框架嗎？

第二個問題，目前大模型使用的主流基礎(chǔ)架構(gòu)，Transformer的提出距離我們已經(jīng)有5年的時間（2017年提出）。我們看到，隨著模型規(guī)模的不斷增長，性能提升也逐漸出現(xiàn)邊際效益遞減的情況，那么Transformer是不是終極框架呢？有沒有可能會找到比Transformer更好更高效的框架？這也是一個值得探索的問題。

神經(jīng)網(wǎng)絡(luò)本身是受到了神經(jīng)科學(xué)的啟發(fā)，我們可以通過其他學(xué)科的支持去探索下一代大模型框架。其中來自數(shù)學(xué)學(xué)科的啟發(fā)包括，非歐空間Manifold的框架，以及如何將一些幾何先驗(yàn)放到模型里，這些都是最近比較新的研究方向。

我們還可以從工程和物理角度去考慮這個問題，比如State Space Model，以及動態(tài)系統(tǒng)的角度去考慮等等；第三個方面來自于神經(jīng)科學(xué)，面向類腦最近一直有人在研究Spiking Neural Network，上述這些都是新型架構(gòu)的前沿研究。到底下一代大模型框架是什么？還沒有一個標(biāo)準(zhǔn)答案，這本身就是一個亟待探索的問題。

03 能效：如何使大模型更加高效？

第三個問題，大模型的性能問題。隨著大模型越變越大，對計算和存儲成本的消耗自然也越來越大。最近有人提出GreenAI的概念，即需要考慮計算能耗的情況來綜合設(shè)計和訓(xùn)練人工智能模型。面向這個問題，我們認(rèn)為，隨著模型變大，AI會越來越需要跟計算機(jī)系統(tǒng)進(jìn)行結(jié)合，從而提出一個更高效面向大模型的支持體系。一方面，我們需要去建設(shè)更加高效分布式訓(xùn)練的算法，在這方面國內(nèi)外都有非常多的相關(guān)探索，包括國際上比較有名的DeepSpeed 以及悟道團(tuán)隊(duì)在開發(fā)的一些加速算法。

另一個方面，大模型一旦訓(xùn)練好去使用時，模型的「大」會讓推理過程變得十分緩慢，因此另外一個前沿方向就是如何高效將模型進(jìn)行盡可能的壓縮，在加速推理的同時保持它的效果。這方面的主要技術(shù)路線包括剪枝、蒸餾、量化等等。同時最近我們發(fā)現(xiàn)，大模型里面具有非常強(qiáng)的稀疏發(fā)放的現(xiàn)象，這對于模型的高效壓縮和計算有著非常大的幫助，這方面需要一些專門算法的支持。

04 適配：大模型如何適配到下游任務(wù)？

第四個問題，大模型一旦訓(xùn)好之后如何適配到下游的任務(wù)？模型越大，在已知任務(wù)上效果越好，同時也展現(xiàn)出支持未定義過的復(fù)雜任務(wù)的潛力。同時我們會發(fā)現(xiàn)隨著大模型變得越來越大，適配到下游任務(wù)的計算和存儲開銷會顯著增大。大家看我們統(tǒng)計結(jié)果從2020年到2021年頂會上的論文，你會發(fā)現(xiàn)越來越多的論文在使用預(yù)訓(xùn)練模型，但是真正去使用大模型的論文還是處在非常低的水平。

非常重要的原因就在于即使全世界已經(jīng)開源了非常多的大模型，但是對于很多研究機(jī)構(gòu)來講，他們其實(shí)還是沒有辦法很好把大模型適配到下游任務(wù)上，這方面是大模型一個非常重要的研究前沿，一個非常重要的方向其實(shí)就是剛才唐杰老師有提到的Prompt Tuning，通過把下游任務(wù)形式更改成一個跟預(yù)訓(xùn)練過程中所謂masked language model相似的形式，讓適配過程變得更加平滑和容易。

另外非常重要的一個前沿其實(shí)就是parameter-effcient learning或者Delta Tuning，基本思想就是只去調(diào)整大模型里非常小的一些參數(shù)，從而讓這個模型非?？斓倪m配到下游任務(wù)，會讓適配過程不會變得那么困難，這方面是我們認(rèn)為如何去把大模型快速適配到下游任務(wù)的關(guān)鍵問題，這是一個非常前沿的方向。剛才唐老師提到，我們其實(shí)開源了兩個工具包括OpenPrompt和OpenDelta來支持這個方面的快速研究，也是歡迎大家使用、相關(guān)意見和建議甚至可以貢獻(xiàn)。

05 可控性：如何實(shí)現(xiàn)大模型的可控生成？

第五個問題，大模型的可控生成。目前大模型已經(jīng)可以生成一些新的文本或圖像，但如何精確地將我們想要的條件或者約束加入到生成過程中，這是大模型非常重要的研究方向。

這個方向也有很多技術(shù)方案，其中包括唐老師提到的思路，把一些prompt加入進(jìn)來，讓生成的過程接受我們提供的條件。

這方面也有一些開放性問題，比如如何建立一個統(tǒng)一的可控生成框架，如何實(shí)現(xiàn)比較好的評測方法，對生成的文本進(jìn)行概念性甚至事實(shí)性的自洽檢測，以及如何針對新的數(shù)據(jù)進(jìn)行相關(guān)的生成。

06 安全性：如何改善大模型中的安全倫理問題？

第六個問題，現(xiàn)在的大模型本身在安全倫理方面考慮的比較少。實(shí)際上會容易出現(xiàn)大模型被攻擊的情況，可能稍微改一改輸入就不work。另外，大模型的使用過程也會存在一定的倫理問題，這些問題都需要我們對大模型進(jìn)行有針對性的約束。

在這個方面，包括黃民烈老師等團(tuán)隊(duì)也在開展一些工作，我們發(fā)現(xiàn)大模型特別容易被有意識地植入一些后門（backdoor），從而讓大模型專門在某些特定場景下做出特定響應(yīng)，這是非常重要的安全性問題。

另外，此前的研究表明模型越變越大之后，會變得越來越有偏見，越來越不值得被信任，這種信任度降低的趨勢就是我們需要探索的問題。

07 認(rèn)知：如何使大模型獲得高級認(rèn)知能力？

第七個問題，人的高級認(rèn)知能力是否可以讓大模型學(xué)到？能不能讓大模型像人一樣完成一些任務(wù)？人去完成任務(wù)一般會進(jìn)行幾個方面的工作：一，我們會把這項(xiàng)任務(wù)嘗試拆分成若干個簡單任務(wù)，第二，針對這些任務(wù)去做一些相關(guān)信息的獲取，最后我們會進(jìn)行所謂的高級推理，從而完成更加復(fù)雜的任務(wù)。

這也是一個非常值得探索的前沿方向，在國際上有WebGPT等方法的嘗試已經(jīng)開始讓大模型學(xué)會使用搜索引擎等等。我們甚至?xí)?，可不可以讓大模型學(xué)會像人一樣網(wǎng)上沖浪，去有針對性地獲取一些相關(guān)信息，進(jìn)而完成任務(wù)。

08 應(yīng)用：大模型有哪些創(chuàng)新應(yīng)用？

第八個問題，大模型在眾多領(lǐng)域的創(chuàng)新應(yīng)用。近年來《Nature》封面文章已經(jīng)出現(xiàn)了五花八門的各種應(yīng)用，大模型也開始在這當(dāng)中扮演至關(guān)重要的角色。這方面一個耳熟能詳?shù)墓ぷ骶褪茿lphaFold，對整個蛋白質(zhì)結(jié)構(gòu)預(yù)測產(chǎn)生了天翻地覆的影響。

未來在這個方向上，關(guān)鍵問題就是如何將領(lǐng)域知識加入AI擅長的大規(guī)模數(shù)據(jù)建模以及大模型生成過程中，這是利用大模型進(jìn)行創(chuàng)新應(yīng)用的重要命題。

09 評估：如何評估大模型的性能？

第九個問題，大模型建得越來越大，結(jié)構(gòu)種類、數(shù)據(jù)源種類、訓(xùn)練目標(biāo)種類也越來越多，這些模型的性能提升到底有多少？在哪些方面我們?nèi)孕枧?？有關(guān)大模型性能評價的問題，我們需要一個科學(xué)的標(biāo)準(zhǔn)去判斷大模型的長處和不足，在這方面智源也有相應(yīng)的努力，因此我們提出了「智源指數(shù)」的概念。

10 易用性：如何降低大模型的使用門檻？

最后，我們認(rèn)為大模型已經(jīng)在統(tǒng)一框架和統(tǒng)一模型支持下展現(xiàn)出非常強(qiáng)大的實(shí)力，未來有希望廣泛應(yīng)用在各種各樣的場景中。而為了更廣泛的應(yīng)用，需要解決的問題是如何降低它的使用門檻。在這方面，我們應(yīng)該受到歷史上數(shù)據(jù)庫系統(tǒng)以及大數(shù)據(jù)分析系統(tǒng)的啟發(fā)，需要構(gòu)建大模型的系統(tǒng)，并在底層相關(guān)計算設(shè)備、系統(tǒng)的支持、用戶接口以及應(yīng)用普世性等方面進(jìn)行統(tǒng)一的考量。

在這方面，在清華大學(xué)和智源研究院支持下，我們最近在開發(fā)一套面向大模型的支持系統(tǒng)，在訓(xùn)練、微調(diào)、推理到后處理等各個方面都能提供全流程的高效計算支持，該系統(tǒng)預(yù)計將在3月底正式發(fā)布。現(xiàn)在個別套件已經(jīng)可以在網(wǎng)上獲取，歡迎大家利用大模型系統(tǒng)，更好地遨游在大模型的時代，做出前沿的探索和應(yīng)用。