自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從BERT到ChatGPT,北航等9大頂尖研究機構(gòu)全面綜述:那些年一起追過的「預(yù)訓(xùn)練基礎(chǔ)模型」

人工智能
2023年了,還有人從頭開始訓(xùn)模型嗎?追蹤一下從Bert以來的那些預(yù)訓(xùn)練模型。

?ChatGPT在few-shot和zero-shot場景下展現(xiàn)出的驚人性能,讓研究人員們更堅定「預(yù)訓(xùn)練」是一條正確的路線。

預(yù)訓(xùn)練基礎(chǔ)模型(Pretrained Foundation Models, PFM)被認為是不同數(shù)據(jù)模式下各種下游任務(wù)的基礎(chǔ),即基于大規(guī)模數(shù)據(jù),對 BERT、 GPT-3、 MAE、 DALLE-E 和 ChatGPT 等預(yù)訓(xùn)練基礎(chǔ)模型進行訓(xùn)練,為下游應(yīng)用提供了合理的參數(shù)初始化。

圖片

PFM 背后的預(yù)訓(xùn)練思想在大型模型的應(yīng)用中起著重要作用,與以往采用卷積和遞歸模塊進行特征提取的方法不同,生成預(yù)訓(xùn)練(GPT)方法采用 Transformer 作為特征提取器,在大型數(shù)據(jù)集上進行自回歸訓(xùn)練。

隨著 PFM 在各個領(lǐng)域獲得巨大成功,近幾年發(fā)表的論文中提出了大量的方法、數(shù)據(jù)集和評價指標,行業(yè)內(nèi)需要一篇從BERT開始一直追蹤到ChatGPT發(fā)展過程的全面綜述。

最近,來自北航、密歇根州立大學(xué)、理海大學(xué)、南洋理工、杜克等國內(nèi)外多所知名院校、企業(yè)的研究人員聯(lián)合寫了一篇關(guān)于預(yù)訓(xùn)練基礎(chǔ)模型的綜述,提供了在文本、圖像和圖(graph)等領(lǐng)域的最近的研究進展,以及目前和未來的挑戰(zhàn)、機遇。

圖片

論文鏈接:https://arxiv.org/pdf/2302.09419.pdf

研究人員首先回顧了自然語言處理、計算機視覺和圖形學(xué)習(xí)的基本組成部分和現(xiàn)有的預(yù)訓(xùn)練;然后討論了其他先進的 PFM 的其他數(shù)據(jù)模式和統(tǒng)一的 PFM 考慮數(shù)據(jù)質(zhì)量和數(shù)量;以及PFM 基本原理的相關(guān)研究,包括模型效率和壓縮、安全性和隱私性;最后,文中列出了幾個關(guān)鍵的結(jié)論,包括未來的研究方向、挑戰(zhàn)和開放的問題。

從BERT到ChatGPT

預(yù)訓(xùn)練基礎(chǔ)模型(PFMs)是大數(shù)據(jù)時代構(gòu)建人工智能系統(tǒng)的重要組成部分,其在自然語言處理(NLP)、計算機視覺(CV)和圖學(xué)習(xí)(GL)三大人工智能領(lǐng)域得到廣泛的研究和應(yīng)用。

PFMs是通用模型,在各個領(lǐng)域內(nèi)或跨領(lǐng)域任務(wù)中都很有效,在各種學(xué)習(xí)任務(wù)中學(xué)習(xí)特征表示方面表現(xiàn)出巨大的潛力,如文本分類、文本生成、圖像分類、物體檢測和圖分類等。

PFMs在用大規(guī)模語料庫訓(xùn)練多個任務(wù)并對類似的小規(guī)模任務(wù)進行微調(diào)方面表現(xiàn)出卓越的性能,使得啟動快速數(shù)據(jù)處理成為可能。

PFMs和預(yù)訓(xùn)練

PFMs是基于預(yù)訓(xùn)練技術(shù)的,其目的是利用大量的數(shù)據(jù)和任務(wù)來訓(xùn)練一個通用模型,在不同的下游應(yīng)用中可以很容易地進行微調(diào)。

預(yù)訓(xùn)練的想法起源于CV任務(wù)中的遷移學(xué)習(xí),在認識到預(yù)訓(xùn)練在CV領(lǐng)域的有效性后,人們開始使用預(yù)訓(xùn)練技術(shù)來提高其他領(lǐng)域的模型性能。當(dāng)把預(yù)訓(xùn)練技術(shù)應(yīng)用于NLP領(lǐng)域時,經(jīng)過良好訓(xùn)練的語言模型(LMs)可以捕捉到對下游任務(wù)有益的豐富知識,如長期依賴關(guān)系、層次關(guān)系等。

此外,預(yù)訓(xùn)練在NLP領(lǐng)域的顯著優(yōu)勢是,訓(xùn)練數(shù)據(jù)可以來自任何未標記的文本語料庫,也就是說,在預(yù)訓(xùn)練過程中存在著無限量的訓(xùn)練數(shù)據(jù)。

早期的預(yù)訓(xùn)練是一種靜態(tài)方法,如NNLM和Word2vec,很難適應(yīng)不同的語義環(huán)境;后來有研究人員提出了動態(tài)預(yù)訓(xùn)練技術(shù),如BERT、XLNet等。

圖片

PFMs在NLP、CV和GL領(lǐng)域的歷史和演變

基于預(yù)訓(xùn)練技術(shù)的PFMs使用大型語料庫來學(xué)習(xí)通用語義表征,隨著這些開創(chuàng)性工作的引入,各種PFMs已經(jīng)出現(xiàn),并被應(yīng)用于下游的任務(wù)和應(yīng)用。

一個顯著的PFM應(yīng)用案例就是最近爆火的ChatGPT。

圖片

ChatGPT是從生成式預(yù)訓(xùn)練Transformer,即GPT-3.5在文本和代碼的混合語料訓(xùn)練后,再微調(diào)得到的;ChatGPT使用了來自人類反饋的強化學(xué)習(xí)(RLHF)技術(shù),也是目前將大型LM與人類的意圖相匹配的一種最有前景的方法。

ChatGPT的優(yōu)越性能可能會導(dǎo)致每一類PFMs的訓(xùn)練范式轉(zhuǎn)變的臨界點,即應(yīng)用指令對齊(instruction aligning)技術(shù),包括強化學(xué)習(xí)(RL)、prompt tuning和思維鏈(chain-of-thought),并最終走向通用人工智能。

這篇文章中,研究人員主要回顧了文本、圖像和圖(graph)相關(guān)的PFM,也是一個相對成熟的研究分類方法。

圖片

對于文本來說,語言模型通過預(yù)測下一個單詞或字符即可實現(xiàn)多種任務(wù),例如,PFMs可用于機器翻譯、問題回答系統(tǒng)、主題建模、情感分析等。

對于圖像來說,類似于文本中的PFMs,使用大規(guī)模的數(shù)據(jù)集來訓(xùn)練一個適合多個CV任務(wù)的大模型。

對于圖來說,相似的預(yù)訓(xùn)練思路也被用于獲得PFMs,可用于諸多下游任務(wù)。

除了針對特定數(shù)據(jù)域的PFMs,文中還回顧并闡述了其他一些先進的PFMs,如針對語音、視頻和跨域數(shù)據(jù)的PFMs,以及多模態(tài)PFMs。

此外,一個能夠處理多模態(tài)的PFMs的大融合趨勢正在出現(xiàn),也就是所謂的統(tǒng)一(unified)PFMs;研究人員首先定義了統(tǒng)一PFMs的概念,然后回顧了近期研究中最先進的統(tǒng)一PFMs,包括OFA、UNIFIED-IO、FLAVA、BEiT-3等。

根據(jù)這三個領(lǐng)域現(xiàn)有的PFMs的特點,研究人員得出結(jié)論,PFMs有以下兩大優(yōu)勢:

1. 只需要進行極少的微調(diào)就可以提高模型在下游任務(wù)上的表現(xiàn);

2. PFMs已經(jīng)在質(zhì)量方面通過了考驗。

與其從頭開始建立一個模型來解決類似的問題,更好的選擇是將PFMs應(yīng)用于與任務(wù)相關(guān)的數(shù)據(jù)集。

PFMs的巨大前景激發(fā)了大量的相關(guān)工作來關(guān)注模型的效率、安全性和壓縮等問題。

這篇綜述的特點在于:

  • 研究人員跟蹤了最新的研究成果,對PFM在NLP、CV和GL中的發(fā)展進行了扎實的總結(jié),討論并提供了關(guān)于這三個主要應(yīng)用領(lǐng)域中通用的PFM設(shè)計和預(yù)訓(xùn)練方法的思考結(jié)果。

  • 總結(jié)了PFMs在其他多媒體領(lǐng)域的發(fā)展,如語音和視頻,還進一步討論了關(guān)于PFMs的更深層次的話題,包括統(tǒng)一的PFMs、模型效率和壓縮,以及安全和隱私。

  • 通過對各種模態(tài)下不同任務(wù)的PFMs的回顧,討論了在大數(shù)據(jù)時代對超大型模型未來研究的主要挑戰(zhàn)和機遇,將引導(dǎo)開發(fā)新一代基于PFMs的協(xié)作和交互智能。

參考資料:?https://arxiv.org/abs/2302.09419

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-02-28 13:09:53

訓(xùn)練模型

2011-12-18 18:32:35

APP

2012-02-22 10:48:23

操作系統(tǒng)

2012-03-02 09:45:02

Ubuntu操作系統(tǒng)

2012-06-06 10:38:32

Windows操作系統(tǒng)

2012-03-22 09:47:37

服務(wù)器操作系統(tǒng)OS

2017-01-22 15:09:08

架構(gòu)閉環(huán)演進

2019-03-14 13:17:03

人工智能分析A12研究

2014-05-21 11:20:14

漏洞安全漏洞

2017-09-05 08:57:04

2024-11-04 00:24:56

2018-08-09 08:46:14

無服務(wù)器Python微服務(wù)

2012-03-23 09:43:29

2012-07-27 13:36:00

Office操作系統(tǒng)

2014-01-23 14:10:02

2015-05-25 09:53:27

DEMO CHINA

2019-06-03 14:43:19

高考數(shù)據(jù)分析錄取率

2021-07-14 11:13:46

線程性能優(yōu)化阿里云

2024-03-11 00:09:00

模型融合場景

2010-03-03 17:36:47

Ubuntu IBM
點贊
收藏

51CTO技術(shù)棧公眾號