自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華劉知遠(yuǎn):大模型「十問」,尋找新范式下的研究方向

人工智能 新聞
在大模型時代有哪些新問題亟待關(guān)注和探索?

大模型的出現(xiàn)迎來了AI研究的新時代,其所帶來的結(jié)果提升十分顯著,超越了很多領(lǐng)域中針對研究問題設(shè)計特定算法實(shí)現(xiàn)的提升。

具體而言,預(yù)訓(xùn)練到Finetune的新范式最本質(zhì)的特點(diǎn)是統(tǒng)一框架以及統(tǒng)一模型。首先,更加統(tǒng)一的架構(gòu),在預(yù)訓(xùn)練出現(xiàn)之前,CNN、RNN、Gate、Attention等在內(nèi)的算法框架層出不窮。2017年 Transformer出現(xiàn)之后,取代各種流行框架的是一個統(tǒng)一框架。其次,這種統(tǒng)一框架通過預(yù)訓(xùn)練機(jī)制帶來了統(tǒng)一的模型,因而我們現(xiàn)在可以用一個統(tǒng)一模型進(jìn)行微調(diào),使其同時用在非常多的下游任務(wù)上。

那么,在大模型時代有哪些新問題亟待關(guān)注和探索?

由此,我想和大家分享一下十個值得深入探索的問題。希望有更多研究者在大模型時代找到自己的研究方向。

問題如下:

1、理論:大模型的基礎(chǔ)理論是什么?

2、架構(gòu):Transformer是終極框架嗎?

3、能效:如何使大模型更加高效?

4、適配:大模型如何適配到下游任務(wù)?

5、可控性:如何實(shí)現(xiàn)大模型的可控生成?

6、安全性:如何改善大模型中的安全倫理問題?

7、認(rèn)知:如何使大模型獲得高級認(rèn)知能力?

8、應(yīng)用:大模型有哪些創(chuàng)新應(yīng)用?

9、評估:如何評估大模型的性能?

10、易用性:如何降低大模型的使用門檻?

01 理論:大模型的基礎(chǔ)理論是什么?

首先,我認(rèn)為在大模型當(dāng)中第一個非常重要的問題就是它的基礎(chǔ)理論問題。大模型的一個非常重要的特點(diǎn)就是可以利用非常少的下游任務(wù)數(shù)據(jù)進(jìn)行相關(guān)下游任務(wù)的適配,無論是全量下游任務(wù)的訓(xùn)練數(shù)據(jù)還是few-shot learning,甚至zero-shot learning,都能達(dá)到相當(dāng)不錯的效果。同時在預(yù)訓(xùn)練到下游任務(wù)適配過程當(dāng)中,需要要調(diào)整的參數(shù)量可以非常少,這兩個特點(diǎn)都是大模型給我們帶來的新現(xiàn)象。

針對這個現(xiàn)象我們有非常多的問題可以去問:

第一,What——大模型到底是什么?我們應(yīng)該有什么樣比較好的數(shù)學(xué)或者分析工具對大模型進(jìn)行定量分析或者理論分析,這本身就是一個非常重要的問題。

第二,How——大模型為什么好?大模型是如何做到這一點(diǎn)的?Pre-training和Fine-tuning是如何關(guān)聯(lián)在一起的?以及大模型到底學(xué)到了什么?這些是How的問題。

最后,Why——大模型為什么會學(xué)得很好?這方面已經(jīng)有一些非常重要的研究理論,包括過參數(shù)化等理論,但終極理論框架的面紗仍然沒有被揭開。面向這三個方面,即What、How和Why,大模型時代有著非常多值得探索的理論問題。

02 架構(gòu):Transformer是終極框架嗎?

第二個問題,目前大模型使用的主流基礎(chǔ)架構(gòu),Transformer的提出距離我們已經(jīng)有5年的時間(2017年提出)。我們看到,隨著模型規(guī)模的不斷增長,性能提升也逐漸出現(xiàn)邊際效益遞減的情況,那么Transformer是不是終極框架呢?有沒有可能會找到比Transformer更好更高效的框架?這也是一個值得探索的問題。

神經(jīng)網(wǎng)絡(luò)本身是受到了神經(jīng)科學(xué)的啟發(fā),我們可以通過其他學(xué)科的支持去探索下一代大模型框架。其中來自數(shù)學(xué)學(xué)科的啟發(fā)包括,非歐空間Manifold的框架,以及如何將一些幾何先驗(yàn)放到模型里,這些都是最近比較新的研究方向。

我們還可以從工程和物理角度去考慮這個問題,比如State Space Model,以及動態(tài)系統(tǒng)的角度去考慮等等;第三個方面來自于神經(jīng)科學(xué),面向類腦最近一直有人在研究Spiking Neural Network,上述這些都是新型架構(gòu)的前沿研究。到底下一代大模型框架是什么?還沒有一個標(biāo)準(zhǔn)答案,這本身就是一個亟待探索的問題。

03 能效:如何使大模型更加高效?

第三個問題,大模型的性能問題。隨著大模型越變越大,對計算和存儲成本的消耗自然也越來越大。最近有人提出GreenAI的概念,即需要考慮計算能耗的情況來綜合設(shè)計和訓(xùn)練人工智能模型。面向這個問題,我們認(rèn)為,隨著模型變大,AI會越來越需要跟計算機(jī)系統(tǒng)進(jìn)行結(jié)合,從而提出一個更高效面向大模型的支持體系。一方面,我們需要去建設(shè)更加高效分布式訓(xùn)練的算法,在這方面國內(nèi)外都有非常多的相關(guān)探索,包括國際上比較有名的DeepSpeed 以及悟道團(tuán)隊(duì)在開發(fā)的一些加速算法。

另一個方面,大模型一旦訓(xùn)練好去使用時,模型的「大」會讓推理過程變得十分緩慢,因此另外一個前沿方向就是如何高效將模型進(jìn)行盡可能的壓縮,在加速推理的同時保持它的效果。這方面的主要技術(shù)路線包括剪枝、蒸餾、量化等等。同時最近我們發(fā)現(xiàn),大模型里面具有非常強(qiáng)的稀疏發(fā)放的現(xiàn)象,這對于模型的高效壓縮和計算有著非常大的幫助,這方面需要一些專門算法的支持。

04 適配:大模型如何適配到下游任務(wù)?

第四個問題,大模型一旦訓(xùn)好之后如何適配到下游的任務(wù)?模型越大,在已知任務(wù)上效果越好,同時也展現(xiàn)出支持未定義過的復(fù)雜任務(wù)的潛力。同時我們會發(fā)現(xiàn)隨著大模型變得越來越大,適配到下游任務(wù)的計算和存儲開銷會顯著增大。大家看我們統(tǒng)計結(jié)果從2020年到2021年頂會上的論文,你會發(fā)現(xiàn)越來越多的論文在使用預(yù)訓(xùn)練模型,但是真正去使用大模型的論文還是處在非常低的水平。

非常重要的原因就在于即使全世界已經(jīng)開源了非常多的大模型,但是對于很多研究機(jī)構(gòu)來講,他們其實(shí)還是沒有辦法很好把大模型適配到下游任務(wù)上,這方面是大模型一個非常重要的研究前沿,一個非常重要的方向其實(shí)就是剛才唐杰老師有提到的Prompt Tuning,通過把下游任務(wù)形式更改成一個跟預(yù)訓(xùn)練過程中所謂masked language model相似的形式,讓適配過程變得更加平滑和容易。

另外非常重要的一個前沿其實(shí)就是parameter-effcient learning或者Delta Tuning,基本思想就是只去調(diào)整大模型里非常小的一些參數(shù),從而讓這個模型非??斓倪m配到下游任務(wù),會讓適配過程不會變得那么困難,這方面是我們認(rèn)為如何去把大模型快速適配到下游任務(wù)的關(guān)鍵問題,這是一個非常前沿的方向。剛才唐老師提到,我們其實(shí)開源了兩個工具包括OpenPrompt和OpenDelta來支持這個方面的快速研究,也是歡迎大家使用、相關(guān)意見和建議甚至可以貢獻(xiàn)。

05 可控性:如何實(shí)現(xiàn)大模型的可控生成?

第五個問題,大模型的可控生成。目前大模型已經(jīng)可以生成一些新的文本或圖像,但如何精確地將我們想要的條件或者約束加入到生成過程中,這是大模型非常重要的研究方向。

這個方向也有很多技術(shù)方案,其中包括唐老師提到的思路,把一些prompt加入進(jìn)來,讓生成的過程接受我們提供的條件。

這方面也有一些開放性問題,比如如何建立一個統(tǒng)一的可控生成框架,如何實(shí)現(xiàn)比較好的評測方法,對生成的文本進(jìn)行概念性甚至事實(shí)性的自洽檢測,以及如何針對新的數(shù)據(jù)進(jìn)行相關(guān)的生成。

06 安全性:如何改善大模型中的安全倫理問題?

第六個問題,現(xiàn)在的大模型本身在安全倫理方面考慮的比較少。實(shí)際上會容易出現(xiàn)大模型被攻擊的情況,可能稍微改一改輸入就不work。另外,大模型的使用過程也會存在一定的倫理問題,這些問題都需要我們對大模型進(jìn)行有針對性的約束。

在這個方面,包括黃民烈老師等團(tuán)隊(duì)也在開展一些工作,我們發(fā)現(xiàn)大模型特別容易被有意識地植入一些后門(backdoor),從而讓大模型專門在某些特定場景下做出特定響應(yīng),這是非常重要的安全性問題。

另外,此前的研究表明模型越變越大之后,會變得越來越有偏見,越來越不值得被信任,這種信任度降低的趨勢就是我們需要探索的問題。

07 認(rèn)知:如何使大模型獲得高級認(rèn)知能力?

第七個問題,人的高級認(rèn)知能力是否可以讓大模型學(xué)到?能不能讓大模型像人一樣完成一些任務(wù)?人去完成任務(wù)一般會進(jìn)行幾個方面的工作:一,我們會把這項(xiàng)任務(wù)嘗試拆分成若干個簡單任務(wù),第二,針對這些任務(wù)去做一些相關(guān)信息的獲取,最后我們會進(jìn)行所謂的高級推理,從而完成更加復(fù)雜的任務(wù)。

這也是一個非常值得探索的前沿方向,在國際上有WebGPT等方法的嘗試已經(jīng)開始讓大模型學(xué)會使用搜索引擎等等。我們甚至?xí)?,可不可以讓大模型學(xué)會像人一樣網(wǎng)上沖浪,去有針對性地獲取一些相關(guān)信息,進(jìn)而完成任務(wù)。

08 應(yīng)用:大模型有哪些創(chuàng)新應(yīng)用?

第八個問題,大模型在眾多領(lǐng)域的創(chuàng)新應(yīng)用。近年來《Nature》封面文章已經(jīng)出現(xiàn)了五花八門的各種應(yīng)用,大模型也開始在這當(dāng)中扮演至關(guān)重要的角色。這方面一個耳熟能詳?shù)墓ぷ骶褪茿lphaFold,對整個蛋白質(zhì)結(jié)構(gòu)預(yù)測產(chǎn)生了天翻地覆的影響。

未來在這個方向上,關(guān)鍵問題就是如何將領(lǐng)域知識加入AI擅長的大規(guī)模數(shù)據(jù)建模以及大模型生成過程中,這是利用大模型進(jìn)行創(chuàng)新應(yīng)用的重要命題。

09 評估:如何評估大模型的性能?

第九個問題,大模型建得越來越大,結(jié)構(gòu)種類、數(shù)據(jù)源種類、訓(xùn)練目標(biāo)種類也越來越多,這些模型的性能提升到底有多少?在哪些方面我們?nèi)孕枧??有關(guān)大模型性能評價的問題,我們需要一個科學(xué)的標(biāo)準(zhǔn)去判斷大模型的長處和不足,在這方面智源也有相應(yīng)的努力,因此我們提出了「智源指數(shù)」的概念。

10 易用性:如何降低大模型的使用門檻?

最后,我們認(rèn)為大模型已經(jīng)在統(tǒng)一框架和統(tǒng)一模型支持下展現(xiàn)出非常強(qiáng)大的實(shí)力,未來有希望廣泛應(yīng)用在各種各樣的場景中。而為了更廣泛的應(yīng)用,需要解決的問題是如何降低它的使用門檻。在這方面,我們應(yīng)該受到歷史上數(shù)據(jù)庫系統(tǒng)以及大數(shù)據(jù)分析系統(tǒng)的啟發(fā),需要構(gòu)建大模型的系統(tǒng),并在底層相關(guān)計算設(shè)備、系統(tǒng)的支持、用戶接口以及應(yīng)用普世性等方面進(jìn)行統(tǒng)一的考量。

在這方面,在清華大學(xué)和智源研究院支持下,我們最近在開發(fā)一套面向大模型的支持系統(tǒng),在訓(xùn)練、微調(diào)、推理到后處理等各個方面都能提供全流程的高效計算支持,該系統(tǒng)預(yù)計將在3月底正式發(fā)布。現(xiàn)在個別套件已經(jīng)可以在網(wǎng)上獲取,歡迎大家利用大模型系統(tǒng),更好地遨游在大模型的時代,做出前沿的探索和應(yīng)用。

總結(jié)來看,上述十個問題是我認(rèn)為非常重要值得探索的方向,希望更多同學(xué)、更多研究者在大模型的時代去發(fā)現(xiàn)值得研究的問題。這是一個全新的時代,有些老的問題消失了,也有更多新的問題出現(xiàn),期待我們一起去探索它們。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-10 07:00:00

大模型密度定律人工智能

2024-12-09 17:20:29

2024-12-10 09:00:00

AI邊緣計算

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2023-06-09 07:29:03

模型文本document

2024-09-04 13:40:00

2024-06-11 07:46:23

2025-03-06 09:46:00

AI模型代碼

2021-09-28 14:14:13

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-04-01 15:35:11

2024-06-14 16:49:29

2025-04-16 04:20:00

2025-01-10 10:30:00

大模型統(tǒng)計評估

2021-08-23 16:16:44

人工智能健康

2025-04-10 16:23:02

2023-03-06 13:59:38

模型參數(shù)

2024-10-11 17:22:44

2023-04-07 14:01:18

ChatGPT人工智能

2024-03-13 11:59:00

研究模型

2020-10-30 10:23:14

機(jī)器學(xué)習(xí)趨勢范式
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號