30頁論文!俞士綸團隊新作:AIGC全面調查,從GAN到ChatGPT發(fā)展史
剛剛過去的2022年,無疑是生成式AI爆發(fā)的奇點。
自2021年起,生成式AI連續(xù)2年入選Gartner的「人工智能技術成熟度曲線」,被認為是未來重要的AI技術趨勢。
近日,俞士綸團隊發(fā)表了一篇關于AIGC全面調查,介紹了從GAN到ChatGPT的發(fā)展史。
論文地址:https://arxiv.org/pdf/2303.04226.pdf
本文節(jié)選了論文部分內容進行介紹。
奇點已來?
近年來,人工智能生成內容(AIGC,也稱生成式AI)引發(fā)了計算機科學界以外的廣泛關注。
整個社會開始對大型科技公司開發(fā)的各種內容生成的產(chǎn)品,如ChatGPT和DALL-E-2,產(chǎn)生了極大興趣。
AIGC,是指使用生成式人工智能(GAI)技術生成內容,并可以在短時間內自動創(chuàng)建大量內容。
ChatGPT是OpenAI開發(fā)的一個用于構建會話的AI系統(tǒng)。該系統(tǒng)能夠以一種有意義的方式有效地理解人類語言并作出回應。
此外,DALL-E-2也是OpenAI開發(fā)的另一種最先進的GAI模型,能夠在幾分鐘內從文本描述中創(chuàng)建獨特的高質量圖像。
AIGC 在圖像生成中的示例
從技術上講,AIGC是指給定指令,可以引導模型完成任務,利用GAI生成滿足指令的內容。這個生成過程通常包括兩個步驟:從指令中提取意圖信息,并根據(jù)提取的意圖生成內容。
然而,正如以前的研究所證明的那樣,包含上述兩個步驟的GAI模型的范式并非是完全新穎的。
與此前工作相比,最近AIGC進步的核心點是在更大的數(shù)據(jù)集上訓練更復雜的生成模型,使用更大的基礎模型框架,并且可以訪問廣泛的計算資源。
比如,GPT-3和GPT-2的主框架一樣,但是預訓練數(shù)據(jù)大小從 WebText (38GB) 增加到 CommonCrawl (過濾后為570GB) ,基礎模型大小從1.5B增加到175B。
因此,GPT-3在各種任務上比GPT-2有更好的泛化能力。
除了數(shù)據(jù)量和計算能力增加所帶來的好處之外,研究人員還在探索將新技術與GAI算法結合起來的方法。
比如,ChatGPT利用人類反饋的強化學習 (RLHF) 來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解長時間對話中的人類偏好。
同時,在CV中,Stability AI在2022年提出的Stable Diffusion在圖像生成方面也取得了巨大的成功。
與以往的方法不同,生成擴散模型可以通過控制探索和開發(fā)之間的平衡來幫助生成高分辨率圖像,從而在生成的圖像中實現(xiàn)多樣性,與訓練數(shù)據(jù)相似性的和諧組合。
通過將這些進步結合起來,模型在AIGC的任務中取得了重大進展,并已被藝術、廣告和教育等各行各業(yè)采用。
在不久的將來,AIGC將繼續(xù)成為機器學習研究的重要領域。
一般來說,GAI模型可以分為兩種類型: 單模態(tài)模型和多模態(tài)模型
因此,對過去的研究進行一次全面的回顧,并找出這個領域存在的問題是至關重要的。這是首份關注AIGC領域的核心技術和應用的調查。
這是AIGC第一次在技術和應用方面總結GAI的全面調查。
以前的調查主要從GAI不同角度介紹,包括自然語言生成 ,圖像生成,多模態(tài)機器學習生成。然而,這些先前的工作只關注AIGC的特定部分。
在這次調查中,最先回顧了AIGC常用的基礎技術。然后,進一步提供了先進GAI算法的全面總結,包括單峰生成和多峰生成。此外,論文還研究了 AIGC 的應用和潛在挑戰(zhàn)。
最后強調了這個領域未來方向??傊?,本文的主要貢獻如下:
-據(jù)我們所知,我們是第一個為AIGC和AI增強的生成過程提供正式定義和全面調查。
-我們回顧了AIGC的歷史、基礎技術,并從單峰生成和多峰生成的角度對GAI任務和模型的最新進展進行了綜合分析。
-本文討論了AIGC面臨的主要挑戰(zhàn)和未來的研究趨勢。
生成式AI歷史
生成模型在人工智能中有著悠久的歷史,最早可以追溯到20世紀50年代隱馬爾可夫模型 (HMMs) 和高斯混合模型(GMMs)的發(fā)展。
這些模型生成了連續(xù)的數(shù)據(jù),如語音和時間序列。然而,直到深度學習的出現(xiàn),生成模型的性能才有了顯著的提高。
在早期的深度生成模型中,不同的領域通常沒有太多的重疊。
生成AI在 CV、NLP和VL中的發(fā)展史
在NLP中,生成句子的傳統(tǒng)方法是使用N-gram語言模型學習詞的分布,然后搜索最佳序列。然而,這種方法不能有效適應長句子。
為了解決這個問題,遞歸神經(jīng)網(wǎng)絡(RNNs)后來被引入到語言建模任務中,允許相對較長的依賴關系進行建模。
其次是長期短期記憶(LSTM)和門控遞歸單元(GRU)的發(fā)展,它們利用門控機制來在訓練中控制記憶。這些方法能夠在一個樣本中處理大約200個標記(token),這與N-gram語言模型相比標志著顯著的改善。
同時,在CV中,在基于深度學習方法出現(xiàn)之前,傳統(tǒng)的圖像生成算法使用了紋理合成(PTS)和紋理映射等技術。
這些算法基于手工設計的特征,并且在生成復雜多樣圖像的方面能力有限。
2014年,生成對抗網(wǎng)絡(GANs)首次被提出,因其在各種應用中取得了令人印象深刻的結果,成為人工智能領域的里程碑。
變異自動編碼器(VAEs)和其他方法,如生成擴散模型,也被開發(fā)出來,以便對圖像生成過程進行更細粒度的控制,并能夠生成高質量的圖像。
生成模型在不同領域的發(fā)展遵循著不同的路徑,但最終出現(xiàn)了交集: Transformer架構。
2017年,由 Vaswani 等人在NLP任務中引入Transformer,后來應用于CV,然后成為各領域中許多生成模型的主導架構。
在NLP領域,許多著名的大型語言模型,如BERT和GPT,都采用Transformer架構作為其主要構建模塊。與之前的構建模塊,即LSTM和GRU相比,具有優(yōu)勢。
在CV中,Vision Transformer (ViT) 和 Swin Transformer后來進一步發(fā)展了這一概念,將Transformer體系結構與視覺組件相結合,使其能夠應用于基于圖像的下行系統(tǒng)。
除了Transformer給單個模態(tài)帶來的改進外,這種交叉也使來自不同領域的模型能夠融合在一起,執(zhí)行多模態(tài)任務。
多模態(tài)模型的一個例子是CLIP。CLIP是一個聯(lián)合的視覺語言模型。它將Transformer架構與視覺組件相結合,允許在大量文本和圖像數(shù)據(jù)上進行訓練。
由于在預訓練中結合了視覺和語言知識,CLIP也可以在多模態(tài)提示生成中作為圖像編碼器使用。總之,基于Transformer模型的出現(xiàn)徹底改變了人工智能的生成,并導致了大規(guī)模訓練的可能性。
近年來,研究人員也開始引入基于這些模型的新技術。
例如,在NLP中,為了幫助模型更好地理解任務需求,人們有時更傾向于少樣本(few-shot)提示。它指的是在提示中包含從數(shù)據(jù)集中選擇的一些示例。
在視覺語言中,研究人員將特定模式的模型與自監(jiān)督對比學習目標的模式相結合,以提供更強大的表示。
未來,隨著AIGC變得愈發(fā)重要,越來越多的技術將被引入,將賦予這一領域極大的生命力。
AIGC基礎
本節(jié)中,介紹了AIGC常用的基礎模型。
基礎模型
Transformer
Transformer是許多最先進模型的骨干架構,如GPT-3、DALL-E-2、Codex和Gopher。
它最早是為了解決傳統(tǒng)模型,如RNNs,在處理變長序列和上下文感知方面的局限性而提出的。
Transformer的架構主要是基于一種自注意力機制,使模型能夠注意到輸入序列中的不同部分。
Transformer由一個編碼器和一個解碼器組成。編碼器接收輸入序列并生成隱藏表示,而解碼器接收隱藏表示并生成輸出序列。
編碼器和解碼器的每一層都由一個多頭注意力和一個前饋神經(jīng)網(wǎng)絡組成。多頭注意力是Transformer的核心組件,學習根據(jù)標記的相關性分配不同的權重。
這種信息路由方法使該模型能夠更好地處理長期的依賴關系,因此,在廣泛的NLP任務中提高了性能。
Transformer的另一個優(yōu)點是它的架構使其具有高度并行性,并允許數(shù)據(jù)戰(zhàn)勝歸納偏置。這一特性使得Transformer非常適合大規(guī)模的預訓練,使基于Transformer的模型能夠適應不同的下游任務。
預訓練語言模型
自從引入Transformer架構以來,由于其并行性和學習能力,讓其成為自然語言處理的主流選擇。
一般來說,這些基于Transformer的預訓練語言模型可以根據(jù)其訓練任務通常分為兩類: 自回歸語言模型,以及掩碼語言模型。
給定一個由多個標記組成的句子,掩蔽語言建模的目標,例如BERT和RoBERTa,即預測給定上下文信息的掩蔽標記的概率。
掩碼語言模型最顯著的例子是BERT,它包括掩蔽語言建模和下句預測任務。RoBERTa使用與BERT相同的架構,通過增加預訓練數(shù)據(jù)量,以及納入更具挑戰(zhàn)性的預訓練目標來提高其性能。
XL-Net也是基于BERT的,它結合了排列操作來改變每次訓練迭代的預測順序,使模型能夠學習更多跨標記的信息。
而自回歸語言模型,如GPT-3和OPT,是對給定前一個標記的概率進行建模,因此是從左到右的語言模型。與掩碼語言模型不同,自回歸語言模型更適合生成式任務。
從人類反饋中強化學習
盡管經(jīng)過大規(guī)模數(shù)據(jù)的訓練,AIGC可能并不總是輸出與用戶意圖一致的內容。
為了使 AIGC 輸出更好地符合人類的偏好,從人類反饋中強化學習(RLHF)已應用于各種應用中的模型微調,如Sparrow、InstructGPT和ChatGPT。
通常情況下,RLHF的整個流程包括以下三個步驟: 預訓練、獎勵學習和強化學習的微調。
計算
硬件
近年來,硬件技術有了顯著的進步,促進了大模型的訓練。
在過去,使用 CPU訓練一個大型神經(jīng)網(wǎng)絡可能需要幾天甚至幾周的時間。然而,隨著算力的增強,這一過程已經(jīng)被加速了幾個數(shù)量級。
例如,英偉達的NVIDIA A100 GPU在BERT大型推理過程中比V100快7倍,比T4快11倍。
此外,谷歌的張量處理單元(TPU)專為深度學習設計的,與A100 GPU相比,提供了更高的計算性能。
計算能力的加速進步顯著提高了人工智能模型訓練的效率,為開發(fā)大型復雜模型提供了新的可能性。
分布式訓練
另一個重大的改進是分布式訓練。
在傳統(tǒng)機器學習中,訓練通常是在一臺機器上使用單個處理器進行的。這種方法可以很好地應用于小型數(shù)據(jù)集和模型,但是在處理大數(shù)據(jù)集和復雜模型時就變得不切實際。
在分布式訓練中,訓練的任務被分散到多個處理器或機器上,使模型的訓練速度大大提升。
一些公司也發(fā)布了框架,簡化了深度學習堆棧的分布式訓練過程。這些框架提供了工具和API,使開發(fā)者能夠輕松地將訓練任務分布在多個處理器或機器上,而不必管理底層基礎設施。
云端運算
云計算在訓練大模型方面也發(fā)揮了至關重要的作用。以前,模型經(jīng)常在本地進行訓練?,F(xiàn)在,隨著AWS和Azure等云計算服務提供了對強大計算資源的訪問,深度學習研究人員和從業(yè)人員可以根據(jù)需要創(chuàng)建大模型訓練所需的大型GPU或TPU集群。
總的來說,這些進步使得開發(fā)更復雜、更精確的模型成為可能,在人工智能研究和應用的各個領域開啟了新的可能性。
作者介紹
俞士綸(Philip S. Yu)是計算機領域學者,是ACM/IEEE Fellow,在伊利諾大學芝加哥分校(UIC)計算機科學系任特聘教授。
他在大數(shù)據(jù)挖掘與管理的理論、技術方面取得了舉世矚目的成就。他針對大數(shù)據(jù)在規(guī)模、速度和多樣性上的挑戰(zhàn),在數(shù)據(jù)挖掘、管理的方法和技術上提出了有效的前沿的解決方案,尤其在融合多樣化數(shù)據(jù)、挖掘數(shù)據(jù)流、頻繁模式、子空間和圖方面做出了突破性的貢獻。
他還在并行和分布式數(shù)據(jù)庫處理技術領域做出了開創(chuàng)性貢獻,并應用于IBM S/390 Parallel Sysplex系統(tǒng),成功將傳統(tǒng)IBM大型機轉型為并行微處理器架構。